上一页 1 2 3 4 5 6 7 8 9 10 ··· 35 下一页
摘要: 1.什么是Rdd持久化? Rdd只会存储的元数据信息(切片的位置信息、Rdd的依赖关系、计算逻辑等),不会存储计算数据 Rdd可以通过Cache或者Persis或者CheckPoint方法,将前面Rdd的计算的结果缓存,默认会将数据存储到JVM的堆内存中 2.怎样将Rdd的计算结果持久化? 1.Ca 阅读全文
posted @ 2022-04-02 16:47 学而不思则罔! 阅读(65) 评论(0) 推荐(0) 编辑
摘要: 1.说明 /* * RDD 任务切分中间分为:Application、Job、Stage 和 Task Application:初始化一个SparkContext即生成一个Application; new SparkConf().setMaster("local").setAppName("dist 阅读全文
posted @ 2022-04-02 07:12 学而不思则罔! 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 1. RDD 血缘关系 /*RDD 血缘关系*/ /* * 1. 什么是Rdd的血缘关系? * 1.RDD 只支持粗粒度转换,即在大量记录上执行的单个操作。 * 2.将创建 RDD 的一系列 Lineage (血统)记录下来,以便恢复丢失的分区。 * 3.RDD的 Lineage 会记录RDD的 元 阅读全文
posted @ 2022-04-01 12:22 学而不思则罔! 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 1. 说明 /*闭包检查*/ /* * 1. Scala的闭包 * 如果一个函数,访问了它外部的(局部)变量的值,那么这个函数和所处的环境,称之为闭包 * 使用场景 : * 在嵌套函数中,内层函数可以 只用外层函数的任意变量 * * 2. Spark的闭包 * 1. 算子之外的代码都是在Driver 阅读全文
posted @ 2022-04-01 07:38 学而不思则罔! 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 1.列转行 1.说明 -- 说明 : 将 一列数据 转换成一行数据 -- 使用函数 : collect_set : 返回分组内元素 的迭代器(对元素去重) collect_list : 返回分组内元素 的迭代器(对元素不去重) concat_ws('指定分隔符',iter) : 返回 将所有元素用指 阅读全文
posted @ 2022-03-30 20:38 学而不思则罔! 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 1.数据准备 -- DDL create table bktab ( team string comment '球队名称', number int comment '球员号码', score_time string comment '得分时间', score int comment '得分分数', 阅读全文
posted @ 2022-03-28 15:31 学而不思则罔! 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 1.定义 /* * 1.定义 * def foreach(f: T => Unit): Unit * 2.功能 * 分布式遍历 RDD 中的每一个元素,调用指定函数 * note : 在每个分区节点上,执行指定函数f * */ 2.示例 object foreachTest extends App 阅读全文
posted @ 2022-03-27 17:56 学而不思则罔! 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 1.定义 /* * 1.定义 * def saveAsTextFile(path: String): Unit * def saveAsObjectFile(path: String): Unit * def saveAsSequenceFile( * path: String, * codec: 阅读全文
posted @ 2022-03-27 17:50 学而不思则罔! 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 1.定义 /* * 1.定义 * def countByKey(): Map[K, Long] * 2.功能 * 统计每种 key 的个数 * 3.执行流程 * 1. 每个节点统计分区key,count(1) * 2. 拉取每个分区 key,count(1),再做聚合 * * */ 2.示例 obj 阅读全文
posted @ 2022-03-27 17:43 学而不思则罔! 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 1.定义 /* * 1.定义 * def fold(zeroValue: T)(op: (T, T) => T): T * op : 分区内、分区间聚合函数 * 2.功能 * 分区的数据通过初始值和分区内的数据进行聚合,然后再和初始值进行分区间的数据聚合 * 3.执行流程 * 1. 分区内对元素聚合 阅读全文
posted @ 2022-03-27 17:38 学而不思则罔! 阅读(24) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 35 下一页