2020 年 9月 24 日随笔档案 - happygril3

DAG

摘要：任务划分 RDD任务切分中间分为：Application,Job,Stage,Task Application:初始化一个SparkContext就生成一个ApplicationJob:一个行动算子生成一个JobStage:根据RDD之间的依赖关系的不同将Job划分为不同的Stage，遇到一个宽依赖阅读全文

posted @ 2020-09-24 16:38 happygril3 阅读(369) 评论(0) 推荐(0)

序列化

摘要：序列化就是指将一个对象转化为二进制的byte流（注意，不是bit流），然后以文件的方式进行保存或通过网络传输，等待被反序列化读取出来。序列化常被用于数据存取和通信过程中。 Spark是分布式执行引擎，其核心抽象是弹性分布式数据集RDD，其代表了分布在不同节点的数据。 Spark的计算是在execut 阅读全文

posted @ 2020-09-24 14:26 happygril3 阅读(171) 评论(0) 推荐(0)

sample

摘要： import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} //map(func) object sampleRDD { def main(args: Array[String]): Unit = 阅读全文

posted @ 2020-09-24 10:59 happygril3 阅读(164) 评论(0) 推荐(0)

行动算子

摘要： import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object reduceRDD { def main(args: Array[String]): Unit = { val conf: 阅读全文

posted @ 2020-09-24 10:57 happygril3 阅读(131) 评论(0) 推荐(0)

mapValues

摘要： import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object KeyValueRDD { def main(args: Array[String]): Unit = { val con 阅读全文

posted @ 2020-09-24 09:43 happygril3 阅读(288) 评论(0) 推荐(0)

happygril3

导航

公告