摘要:
1.定义 /* * 1.定义 * def foreach(f: T => Unit): Unit * 2.功能 * 分布式遍历 RDD 中的每一个元素,调用指定函数 * note : 在每个分区节点上,执行指定函数f * */ 2.示例 object foreachTest extends App 阅读全文
posted @ 2022-03-27 17:56
学而不思则罔!
阅读(49)
评论(0)
推荐(0)
摘要:
1.定义 /* * 1.定义 * def saveAsTextFile(path: String): Unit * def saveAsObjectFile(path: String): Unit * def saveAsSequenceFile( * path: String, * codec: 阅读全文
posted @ 2022-03-27 17:50
学而不思则罔!
阅读(49)
评论(0)
推荐(0)
摘要:
1.定义 /* * 1.定义 * def countByKey(): Map[K, Long] * 2.功能 * 统计每种 key 的个数 * 3.执行流程 * 1. 每个节点统计分区key,count(1) * 2. 拉取每个分区 key,count(1),再做聚合 * * */ 2.示例 obj 阅读全文
posted @ 2022-03-27 17:43
学而不思则罔!
阅读(59)
评论(0)
推荐(0)
摘要:
1.定义 /* * 1.定义 * def fold(zeroValue: T)(op: (T, T) => T): T * op : 分区内、分区间聚合函数 * 2.功能 * 分区的数据通过初始值和分区内的数据进行聚合,然后再和初始值进行分区间的数据聚合 * 3.执行流程 * 1. 分区内对元素聚合 阅读全文
posted @ 2022-03-27 17:38
学而不思则罔!
阅读(45)
评论(0)
推荐(0)
摘要:
1.定义 /* * 1.定义 * def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U * seqOp : 分区内聚合函数 * combOp : 分区间聚合函数 * 2.功能 * 分区 阅读全文
posted @ 2022-03-27 17:35
学而不思则罔!
阅读(48)
评论(0)
推荐(0)
摘要:
1.定义 /* * 1.定义 * def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T] * 2.功能 * 返回该 RDD 排序后的前 n 个元素组成的数组 * 3.note * 1.默认为正序排序 * 逆序排序: Orderin 阅读全文
posted @ 2022-03-27 17:26
学而不思则罔!
阅读(130)
评论(0)
推荐(0)
摘要:
1.定义 /* * 1.定义 * def take(num: Int): Array[T] * 2.功能 * 返回一个由 RDD 的前 n 个元素组成的数组 * * */ 2.示例 object takeTest extends App { val sparkconf: SparkConf = ne 阅读全文
posted @ 2022-03-27 17:20
学而不思则罔!
阅读(56)
评论(0)
推荐(0)
摘要:
1.定义 /* * 1.定义 * def first(): T * 2.功能 * 返回 RDD 中的第一个元素 * * */ 2.示例 object firstTest extends App { val sparkconf: SparkConf = new SparkConf().setMaste 阅读全文
posted @ 2022-03-27 17:17
学而不思则罔!
阅读(58)
评论(0)
推荐(0)
摘要:
1.定义 /* * 1.定义 * def count(): Long * 2.功能 * 返回 RDD 中元素的个数 * * */ 2. 示例 object countTest extends App { val sparkconf: SparkConf = new SparkConf().setMa 阅读全文
posted @ 2022-03-27 17:16
学而不思则罔!
阅读(53)
评论(0)
推荐(0)
摘要:
1.定义 /* * 1.定义 * def collect(): Array[T] * 2.功能 * 拉取 Rdd所有的元素到 Driver上 存储到数组上 * 3.note * 1.当 Rdd元素数据量很到时,可能导致Driver 内存溢出 * * */ 2. 示例 object collectTe 阅读全文
posted @ 2022-03-27 16:16
学而不思则罔!
阅读(50)
评论(0)
推荐(0)
摘要:
1. 定义 /* * 1.定义 * def reduce(f: (T, T) => T): T * 2.功能 * 聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据 * 3.note * 1.先在map端reduce,再将结果拉取到Driver上进行reduce * 2.当 计算不满足结 阅读全文
posted @ 2022-03-27 16:11
学而不思则罔!
阅读(47)
评论(0)
推荐(0)
摘要:
1. 文件说明 数据文件(用户点击行为数据) : agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔 2. 数据 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 1516609143 阅读全文
posted @ 2022-03-27 15:44
学而不思则罔!
阅读(180)
评论(0)
推荐(0)
摘要:
1. 需求说明 /* * 数据文件(用户点击行为数据) : * agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔 * 需求1 : * 统计出每一个省份每个广告被点击数量排行的 Top3 * 按 省份、广告 分组,统计指标为点击次数 * * */ 2. 代码示例 object 阅读全文
posted @ 2022-03-27 15:42
学而不思则罔!
阅读(148)
评论(0)
推荐(0)
摘要:
1. 定义 /* * 1.定义 * def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] * def cogroup[W1, W2](other1: RDD[(K, W1)], other2: RDD[(K, 阅读全文
posted @ 2022-03-27 08:41
学而不思则罔!
阅读(50)
评论(0)
推荐(0)
摘要:
1. join /* * 1.定义 * def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] * def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] * 2.功能 * 阅读全文
posted @ 2022-03-27 08:22
学而不思则罔!
阅读(55)
评论(0)
推荐(0)

浙公网安备 33010602011771号