spark 学习目录

第一天

hadoop的几个主要端口

并行和并发的概念

1.wordcount

2.spark支持的库

3.trabsformations(变换:返回新的rdd)

4.action(动作)

5.spark集群部署配置

6.启动集群

7.分析/opt/spark/sbin下 start-all.sh脚本

******************************************************************

第二天


spark编程指南 英文版http://spark.apache.org/docs/latest/streaming-programming-guide.html

wordcount

sc.textFile返回的是hadoop的RDD

1.spark函数式编程
rdd
不可变的
分布式的
驻留在内存的
rdd是强类型的

2.spark-shell连上完全分布式spark集群上的方式

3.

 

posted @ 2018-07-27 22:47  小#安  阅读(112)  评论(0)    收藏  举报