2020年5月4日
摘要: Spark只支持两种RDD操作,transformation和action操作,transformation针对已有的RDD创建一个新的RDD文件,action主要是对RDD进行最后操作,比如遍历和reduce、保存到文件等,并可以返回结果到Driver程序 transformation,都具有la 阅读全文
posted @ 2020-05-04 22:31 清浊 阅读(513) 评论(0) 推荐(0)
摘要: 进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的RDD。 Spark Core提供 阅读全文
posted @ 2020-05-04 21:31 清浊 阅读(781) 评论(0) 推荐(0)
摘要: 1、Driver,启动之后执行一些初始化操作,然后向Master进行注册,让master知道有一个spark应用程序要执行。在Executor反向注册以后,就可以开始正式执行spark程序,首先第一步创建初始RDD,读取数据源。从HDFS文件内容中读取数据,分布到work节点上,形成内存中的分布式数 阅读全文
posted @ 2020-05-04 21:04 清浊 阅读(157) 评论(0) 推荐(0)
摘要: 1、代码如下 package cn.spark.study.core import org.apache.spark.{SparkConf, SparkContext} /** * @author: yangchun * @description: * @date: Created in 2020- 阅读全文
posted @ 2020-05-04 17:35 清浊 阅读(598) 评论(0) 推荐(0)