随笔分类 -  Spark

摘要:键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组。 概述 键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数据分组的操作接口。 创建 Spark中有许多中创建键值对RDD的方式,其中包括 文件读取时直接返回键 阅读全文
posted @ 2017-02-23 16:43 X.Jan 阅读(13725) 评论(0) 推荐(1)
摘要:一句话说,在Spark中对数据的操作其实就是对RDD的操作,而对RDD的操作不外乎创建、转换、调用求值。 什么是RDD RDD(Resilient Distributed Dataset),弹性分布式数据集。 它定义了如何在集群的每个节点上操作数据的一系列命令,而不是指真实的数据,Spark通过RD 阅读全文
posted @ 2017-02-16 13:35 X.Jan 阅读(2110) 评论(2) 推荐(0)
摘要:没用过IDEA工具,听说跟Eclipse差不多,sbt在Idea其实就等于maven在Eclipse。Spark运行在JVM中,所以要在Idea下运行spark,就先要安装JDK 1.8+ 然后加入Scala和Spark的依赖包就可以进行开发了,不要安装低版本的JDK。 先下载Idea的社区版 ht 阅读全文
posted @ 2016-12-22 14:04 X.Jan 阅读(21374) 评论(2) 推荐(4)