摘要: RDD,即弹性分布式数据集,也就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 RDD支持两种类型的操作:转化操作和行动操作。转换操作会由一个RDD生 阅读全文
posted @ 2018-03-28 11:08 小哈度珀 阅读(402) 评论(0) 推荐(0)
摘要: 我们下载Spark并在本地模式单机运行它。Spark由Scala编写,运行在Java虚拟机上。要在你的电脑上运行Spark,需要安装Java 6或以上的版本。 我们在Spark官网下载Spark的一个压缩的TAR文件。然后将它解压,配置好环境变量就可以使用了。(注意:不要将Spark安装到带空格的目 阅读全文
posted @ 2018-03-26 15:03 小哈度珀 阅读(2617) 评论(0) 推荐(0)
摘要: Spark是什么? Spark是一个用来实现快速而通用的集群计算的平台。扩展了MapReduce,比其更快。Spark可以将各种不同的计算平台简单且低耗地整合在一起,因此大大减轻了各种平台分别管理的负担。 Spark提供了丰富的接口,基于Python, Scala,Java提供了简易的API。此外, 阅读全文
posted @ 2018-03-26 14:16 小哈度珀 阅读(245) 评论(0) 推荐(0)