摘要:1、transformation和action介绍Spark支持两种RDD操作:transformation和action。transformation操作会针对已有的RDD创建一个新的RDD;而action则主要是对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并可以返回结果给Driver程序。 例如,map就是一种transformation操作,它用于将已有RDD的每个元素传入... 阅读全文
posted @ 2017-07-26 20:26 江正军 阅读 (388) 评论 (0) 编辑
摘要:附件列表 阅读全文
posted @ 2017-07-26 18:34 江正军 阅读 (166) 评论 (0) 编辑
摘要:Spark Core提供了三种创建RDD的方式,包括:使用程序中的集合创建RDD;使用本地文件创建RDD;使用HDFS文件创建RDD。1、并行化集合如果要通过并行化集合来创建RDD,需要针对程序中的集合,调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是一个RDD。相当于是,集合中的部分数据会到一个节点上,而另一... 阅读全文
posted @ 2017-07-26 18:34 江正军 阅读 (1700) 评论 (0) 编辑