2022 年 3月 27 日随笔档案 - 学而不思则罔！

2022年3月27日

摘要： 1.定义 /* * 1.定义 * def foreach(f: T => Unit): Unit * 2.功能 * 分布式遍历 RDD 中的每一个元素，调用指定函数 * note : 在每个分区节点上,执行指定函数f * */ 2.示例 object foreachTest extends App 阅读全文

posted @ 2022-03-27 17:56 学而不思则罔！阅读(53) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_行动算子_save oprator

摘要： 1.定义 /* * 1.定义 * def saveAsTextFile(path: String): Unit * def saveAsObjectFile(path: String): Unit * def saveAsSequenceFile( * path: String, * codec: 阅读全文

posted @ 2022-03-27 17:50 学而不思则罔！阅读(52) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_行动算子_countByKey

摘要： 1.定义 /* * 1.定义 * def countByKey(): Map[K, Long] * 2.功能 * 统计每种 key 的个数 * 3.执行流程 * 1. 每个节点统计分区key,count(1) * 2. 拉取每个分区 key,count(1),再做聚合 * * */ 2.示例 obj 阅读全文

posted @ 2022-03-27 17:43 学而不思则罔！阅读(62) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_行动算子_fold

摘要： 1.定义 /* * 1.定义 * def fold(zeroValue: T)(op: (T, T) => T): T * op : 分区内、分区间聚合函数 * 2.功能 * 分区的数据通过初始值和分区内的数据进行聚合，然后再和初始值进行分区间的数据聚合 * 3.执行流程 * 1. 分区内对元素聚合阅读全文

posted @ 2022-03-27 17:38 学而不思则罔！阅读(50) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_行动算子_aggregate

摘要： 1.定义 /* * 1.定义 * def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U * seqOp : 分区内聚合函数 * combOp : 分区间聚合函数 * 2.功能 * 分区阅读全文

posted @ 2022-03-27 17:35 学而不思则罔！阅读(52) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_行动算子_takeOrdered

摘要： 1.定义 /* * 1.定义 * def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T] * 2.功能 * 返回该 RDD 排序后的前 n 个元素组成的数组 * 3.note * 1.默认为正序排序 * 逆序排序: Orderin 阅读全文

posted @ 2022-03-27 17:26 学而不思则罔！阅读(135) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_行动算子_take

摘要： 1.定义 /* * 1.定义 * def take(num: Int): Array[T] * 2.功能 * 返回一个由 RDD 的前 n 个元素组成的数组 * * */ 2.示例 object takeTest extends App { val sparkconf: SparkConf = ne 阅读全文

posted @ 2022-03-27 17:20 学而不思则罔！阅读(61) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_行动算子_first

摘要： 1.定义 /* * 1.定义 * def first(): T * 2.功能 * 返回 RDD 中的第一个元素 * * */ 2.示例 object firstTest extends App { val sparkconf: SparkConf = new SparkConf().setMaste 阅读全文

posted @ 2022-03-27 17:17 学而不思则罔！阅读(64) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_行动算子_count

摘要： 1.定义 /* * 1.定义 * def count(): Long * 2.功能 * 返回 RDD 中元素的个数 * * */ 2. 示例 object countTest extends App { val sparkconf: SparkConf = new SparkConf().setMa 阅读全文

posted @ 2022-03-27 17:16 学而不思则罔！阅读(54) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_行动算子_collect

摘要： 1.定义 /* * 1.定义 * def collect(): Array[T] * 2.功能 * 拉取 Rdd所有的元素到 Driver上存储到数组上 * 3.note * 1.当 Rdd元素数据量很到时,可能导致Driver 内存溢出 * * */ 2. 示例 object collectTe 阅读全文

posted @ 2022-03-27 16:16 学而不思则罔！阅读(55) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_行动算子_reduce

摘要： 1. 定义 /* * 1.定义 * def reduce(f: (T, T) => T): T * 2.功能 * 聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据 * 3.note * 1.先在map端reduce,再将结果拉取到Driver上进行reduce * 2.当计算不满足结阅读全文

posted @ 2022-03-27 16:11 学而不思则罔！阅读(52) 评论(0) 推荐(0)

agent.log

摘要： 1. 文件说明数据文件(用户点击行为数据) : agent.log:时间戳，省份，城市，用户，广告，中间字段使用空格分隔 2. 数据 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 1516609143 阅读全文

posted @ 2022-03-27 15:44 学而不思则罔！阅读(181) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_转换算子_keyValue型_(需求)统计出每一个省份每个广告被点击数量排行的 Top3

摘要： 1. 需求说明 /* * 数据文件(用户点击行为数据) : * agent.log:时间戳，省份，城市，用户，广告，中间字段使用空格分隔 * 需求1 : * 统计出每一个省份每个广告被点击数量排行的 Top3 * 按省份、广告分组,统计指标为点击次数 * * */ 2. 代码示例 object 阅读全文

posted @ 2022-03-27 15:42 学而不思则罔！阅读(152) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_转换算子_keyValue型_cogroup

摘要： 1. 定义 /* * 1.定义 * def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] * def cogroup[W1, W2](other1: RDD[(K, W1)], other2: RDD[(K, 阅读全文

posted @ 2022-03-27 08:41 学而不思则罔！阅读(54) 评论(0) 推荐(0)

第五章_Spark核心编程_Rdd_转换算子_keyValue型_join&leftOuterJoin&rightOuterJoin&fullOuterJoin

摘要： 1. join /* * 1.定义 * def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] * def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] * 2.功能 * 阅读全文

posted @ 2022-03-27 08:22 学而不思则罔！阅读(59) 评论(0) 推荐(0)

私人小院

公告