Spark 之旅一
一、spark是什么
一个集群计算框架或者说分布式计算框架,最初目标是解决或者替代mapreduce磁盘读写开销的。是伯克利BDAS的一个基础部分。
BDAS框架:
特性:
基于内存,而不是磁盘,性能比mapreduce有了显著提高
RDD,resilient distribution dataset
Scala语言开发
二、为什么spark
Mapreduce 因 延迟太高的死穴,越来越受到人们的批评。
不少大的商业机构宣布支持spark,如cloudrea,mapr等;Mahout 也表示不再接受任何形式的以MapReduce形式实现的算法,另一方面宣布新的算法基于Spark。
国内不少公司已经开始使用spark,如淘宝。
三、学习计划
A:熟练的掌握Scala语言,尤其要熟练掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等
B:精通Spark平台本身提供给开发者API
C:深入Spark内核
D:掌握基于Spark上的核心框架的使用
http://shiyanjun.cn/archives/744.html
spark shuffle: http://blog.csdn.net/johnny_lee/article/details/22619585