spark 学习目录
第一天
hadoop的几个主要端口
并行和并发的概念
1.wordcount
2.spark支持的库
3.trabsformations(变换:返回新的rdd)
4.action(动作)
5.spark集群部署配置
6.启动集群
7.分析/opt/spark/sbin下 start-all.sh脚本
******************************************************************
第二天
spark编程指南 英文版http://spark.apache.org/docs/latest/streaming-programming-guide.html
wordcount
sc.textFile返回的是hadoop的RDD
1.spark函数式编程
rdd
不可变的
分布式的
驻留在内存的
rdd是强类型的
2.spark-shell连上完全分布式spark集群上的方式
3.

浙公网安备 33010602011771号