09 2018 档案

摘要:1.共享变量分两种:广播变量和累加器,实现任务间变量共享访问; 2.广播变量: 将变量以缓存并只读的方式分发至每个机器节点上。类似于hadoop中的分布式缓存。 特点:a.只读;b.在每个节点中缓存; 创建方式:调用sc.broadcast()创建广播变量;获取广播变量:bc.value 3.累加器 阅读全文
posted @ 2018-09-05 13:26 Coding_Now 阅读(558) 评论(0) 推荐(0)
摘要:1.运行机制 1.依赖:宽依赖和窄依赖,RDD具有分区 宽依赖:多个子RDD的分区依赖同一个父RDD的分区,类似reduceByKey;在父RDD的角度,理解为超生; 窄依赖:父RDD的每个分区最多被一个子RDD使用,类似map();在父RDD的角度,理解为独生; 2.依赖和分区 分区:RDD分区指 阅读全文
posted @ 2018-09-04 16:43 Coding_Now 阅读(212) 评论(0) 推荐(0)