Spark 之旅一

一、spark是什么

一个集群计算框架或者说分布式计算框架,最初目标是解决或者替代mapreduce磁盘读写开销的。是伯克利BDAS的一个基础部分。

BDAS框架:

特性:

基于内存,而不是磁盘,性能比mapreduce有了显著提高

RDD,resilient distribution dataset

Scala语言开发

 

二、为什么spark

Mapreduce 因 延迟太高的死穴,越来越受到人们的批评。

不少大的商业机构宣布支持spark,如cloudrea,mapr等;Mahout 也表示不再接受任何形式的以MapReduce形式实现的算法,另一方面宣布新的算法基于Spark。

国内不少公司已经开始使用spark,如淘宝。

 

三、学习计划

A:熟练的掌握Scala语言,尤其要熟练掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等

B:精通Spark平台本身提供给开发者API

C:深入Spark内核

D:掌握基于Spark上的核心框架的使用

 

http://shiyanjun.cn/archives/744.html

 

spark shuffle: http://blog.csdn.net/johnny_lee/article/details/22619585

posted on 2015-04-29 15:56  不忘初衷,方能致远  阅读(294)  评论(0)    收藏  举报

导航