摘要: 1.定义 /* * 1.定义 * def foreach(f: T => Unit): Unit * 2.功能 * 分布式遍历 RDD 中的每一个元素,调用指定函数 * note : 在每个分区节点上,执行指定函数f * */ 2.示例 object foreachTest extends App 阅读全文
posted @ 2022-03-27 17:56 学而不思则罔! 阅读(49) 评论(0) 推荐(0)
摘要: 1.定义 /* * 1.定义 * def saveAsTextFile(path: String): Unit * def saveAsObjectFile(path: String): Unit * def saveAsSequenceFile( * path: String, * codec: 阅读全文
posted @ 2022-03-27 17:50 学而不思则罔! 阅读(49) 评论(0) 推荐(0)
摘要: 1.定义 /* * 1.定义 * def countByKey(): Map[K, Long] * 2.功能 * 统计每种 key 的个数 * 3.执行流程 * 1. 每个节点统计分区key,count(1) * 2. 拉取每个分区 key,count(1),再做聚合 * * */ 2.示例 obj 阅读全文
posted @ 2022-03-27 17:43 学而不思则罔! 阅读(59) 评论(0) 推荐(0)
摘要: 1.定义 /* * 1.定义 * def fold(zeroValue: T)(op: (T, T) => T): T * op : 分区内、分区间聚合函数 * 2.功能 * 分区的数据通过初始值和分区内的数据进行聚合,然后再和初始值进行分区间的数据聚合 * 3.执行流程 * 1. 分区内对元素聚合 阅读全文
posted @ 2022-03-27 17:38 学而不思则罔! 阅读(45) 评论(0) 推荐(0)
摘要: 1.定义 /* * 1.定义 * def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U * seqOp : 分区内聚合函数 * combOp : 分区间聚合函数 * 2.功能 * 分区 阅读全文
posted @ 2022-03-27 17:35 学而不思则罔! 阅读(48) 评论(0) 推荐(0)
摘要: 1.定义 /* * 1.定义 * def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T] * 2.功能 * 返回该 RDD 排序后的前 n 个元素组成的数组 * 3.note * 1.默认为正序排序 * 逆序排序: Orderin 阅读全文
posted @ 2022-03-27 17:26 学而不思则罔! 阅读(130) 评论(0) 推荐(0)
摘要: 1.定义 /* * 1.定义 * def take(num: Int): Array[T] * 2.功能 * 返回一个由 RDD 的前 n 个元素组成的数组 * * */ 2.示例 object takeTest extends App { val sparkconf: SparkConf = ne 阅读全文
posted @ 2022-03-27 17:20 学而不思则罔! 阅读(56) 评论(0) 推荐(0)
摘要: 1.定义 /* * 1.定义 * def first(): T * 2.功能 * 返回 RDD 中的第一个元素 * * */ 2.示例 object firstTest extends App { val sparkconf: SparkConf = new SparkConf().setMaste 阅读全文
posted @ 2022-03-27 17:17 学而不思则罔! 阅读(58) 评论(0) 推荐(0)
摘要: 1.定义 /* * 1.定义 * def count(): Long * 2.功能 * 返回 RDD 中元素的个数 * * */ 2. 示例 object countTest extends App { val sparkconf: SparkConf = new SparkConf().setMa 阅读全文
posted @ 2022-03-27 17:16 学而不思则罔! 阅读(53) 评论(0) 推荐(0)
摘要: 1.定义 /* * 1.定义 * def collect(): Array[T] * 2.功能 * 拉取 Rdd所有的元素到 Driver上 存储到数组上 * 3.note * 1.当 Rdd元素数据量很到时,可能导致Driver 内存溢出 * * */ 2. 示例 object collectTe 阅读全文
posted @ 2022-03-27 16:16 学而不思则罔! 阅读(50) 评论(0) 推荐(0)
摘要: 1. 定义 /* * 1.定义 * def reduce(f: (T, T) => T): T * 2.功能 * 聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据 * 3.note * 1.先在map端reduce,再将结果拉取到Driver上进行reduce * 2.当 计算不满足结 阅读全文
posted @ 2022-03-27 16:11 学而不思则罔! 阅读(47) 评论(0) 推荐(0)
摘要: 1. 文件说明 数据文件(用户点击行为数据) : agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔 2. 数据 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 1516609143 阅读全文
posted @ 2022-03-27 15:44 学而不思则罔! 阅读(180) 评论(0) 推荐(0)
摘要: 1. 需求说明 /* * 数据文件(用户点击行为数据) : * agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔 * 需求1 : * 统计出每一个省份每个广告被点击数量排行的 Top3 * 按 省份、广告 分组,统计指标为点击次数 * * */ 2. 代码示例 object 阅读全文
posted @ 2022-03-27 15:42 学而不思则罔! 阅读(148) 评论(0) 推荐(0)
摘要: 1. 定义 /* * 1.定义 * def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] * def cogroup[W1, W2](other1: RDD[(K, W1)], other2: RDD[(K, 阅读全文
posted @ 2022-03-27 08:41 学而不思则罔! 阅读(50) 评论(0) 推荐(0)
摘要: 1. join /* * 1.定义 * def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] * def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] * 2.功能 * 阅读全文
posted @ 2022-03-27 08:22 学而不思则罔! 阅读(55) 评论(0) 推荐(0)