2.关于Apache Spark

关于Apache Spark

Apache Spark是一个开放源码，Hadoop兼容，快速，富于表现力的集群计算平台。它是在加州大学伯克利分校的AMPLabs创建的，作为伯克利数据分析平台（BDAS）的一部分。它已经成为一个顶级的Apache项目。图4显示了当前Apache Spark堆栈的各种组件。

它有五大优点：

闪电的计算速度，因为数据被加载到分布式存储器（RAM）的机器集群上。可以对数据进行快速转换，并根据需要进行缓存，以便后续使用。已经注意到，由于内存不足，一些数据溢出到磁盘上时，Apache
Spark会比Hadoop Map更快地处理数据，当所有数据都适合内存时，数据速度提升10倍。
通过Java，Scala，Python，SQL（用于交互式查询）内置的标准API可以很方便地访问，并且具有丰富的机器学习库可用于开箱即用。
与现有的Hadoop v1（SIMR）和2.x（YARN）生态系统的兼容性使公司能够利用其现有的基础架构。
方便的下载和安装过程。方便的shell（REPL：Read-Eval-Print-Loop）交互式学习API。
提高生产率，因为高层次结构将重点放在计算内容上。

此外，Spark在Scala中实现，这意味着代码非常简洁。

posted @ 2017-07-27 19:21 全能程序猿阅读(298) 评论(0) 收藏举报

刷新页面返回顶部