Spark 学习记录 - Spark 前言
Spark 介绍
Spark是一个非常强大而活跃的开源社区开源和维护的,他们来自不同的机构,其中很多的人都是我们华人,Spark是2009年作为一个研究项目在加州大学伯克利分校实验室诞生,实验室的一些研究人员在做迭代计算的时候发现MR效率极其低下,因而想要一种适合迭代计算的计算框架,Spark应用而生。因此Spark天生就是为了机器学习迭代算法而生的。09年Spark的论文在学术会议上发表,同年spark项目正式成立,相比于MR,在某些任务上已经获得了10~20倍的性能提升。
Spark 历史溯源
2011年AMPlab开始基于Spark开发更高层的组件,Shark(Spark SQL的前身)和Spark Streaming。这些组件和其他组件一起被称为伯克利数据分析工作栈。
2010年3月Spark正式开源,并且在2013年6月交给了Apache基金会,现已成了Apache基金会下的最顶级项目。
Spark 版本说明
由于spark是一个极其活跃的项目,其社区也非常的繁荣,随着版本号的不断迭代,Spark的贡献者也越来越多,但是spark的版本更新还是操持着原有的发布速度,现在(本篇记录发布)已更新到3.0版本,(目前很多公司还是在使用Spark的1.6.X版本),故本次使用2.2.0版本进行安装与学习

浙公网安备 33010602011771号