Spark3000门徒第七课Spark运行原理及RDD解密总结

今晚听了王家林老师的第七课Spark运行原理及RDD解密，课后作业是：spark基本原理，我的总结如下：

1 spark是分布式基于内存特别适合于迭代计算的计算框架

2 mapReduce就两个阶段map和reduce，而spark是不断地迭代计算，更加灵活更加强大，容易构造复杂算法。

3 spark不能取代hive，hive做数据仓库存储，spark sql只是取代hive的计算引擎

4 spark中间数据可以在内存也可以在磁盘

5 partition是一个数据集合

6 注意：初学者执行多个步骤要注意分步检验，不然不知哪里错了

7 var data = sc.textFile("/user") 不必写hdfs:// ，根据上下文判断

8 读文件得到HadoopRDD，去掉文件中索引，得到MapPartitionsRDD,这样一系列分片的数据分布在不同的机器。

9 移动计算而不是移动数据

另外，王家林老师说出一个消息：

用java来写spark：人才多，与javaEE整合更容易，维护更容易，所以后面课程所有例子都是同时使用Scala和Java

后续课程可以参照新浪微博王家林_DT大数据梦工厂：http://weibo.com/ilovepains

王家林中国Spark第一人,微信公共号DT_Spark

posted on 2016-01-09 00:36 HaiziS 阅读(206) 评论(0) 收藏举报