摘要: 1. 定义 /* * 1. 定义 * def partitionBy(partitioner: Partitioner): RDD[(K, V)] * * 2. 功能 * 将数据类型为key-value的Rdd 按照指定 Partitioner 重新进行分区 * 默认分区器为 HashPartiti 阅读全文
posted @ 2022-03-23 19:52 学而不思则罔! 阅读(86) 评论(0) 推荐(0)
摘要: 1. 求交集-intersection /* * 1. 定义 * def intersection(other: RDD[T]): RDD[T] * * 2. 功能 * 对源 RDD 和参数 RDD 求交集后返回一个新的 RDD * 参与运算的两个Rdd 类型必须一致,会对返回的结果进行去重 * * 阅读全文
posted @ 2022-03-23 17:38 学而不思则罔! 阅读(174) 评论(0) 推荐(0)
摘要: 1. 定义 /* * 1. 定义 * def sortBy[K]( * f: (T) => K, * ascending: Boolean = true, * numPartitions: Int = this.partitions.length) * (implicit ord: Ordering 阅读全文
posted @ 2022-03-23 16:11 学而不思则罔! 阅读(58) 评论(0) 推荐(0)
摘要: 1.定义 /* * def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { * coalesce(numPartitions, shuffle = true) * } * 阅读全文
posted @ 2022-03-23 15:52 学而不思则罔! 阅读(43) 评论(0) 推荐(0)
摘要: 1. 说明 /* * 1. 定义 * def coalesce(numPartitions: Int * , shuffle: Boolean = false * , partitionCoalescer: Option[PartitionCoalescer] = Option.empty) * ( 阅读全文
posted @ 2022-03-23 15:27 学而不思则罔! 阅读(68) 评论(0) 推荐(0)
摘要: 1. 定义 /* * 1. 定义 * def distinct(): RDD[T] * 2. 功能 * 将Rdd 元素去重,返回去重后的Rdd * * */ object distinctTest extends App { val sparkconf: SparkConf = new SparkC 阅读全文
posted @ 2022-03-23 15:04 学而不思则罔! 阅读(40) 评论(0) 推荐(0)
摘要: 1. 定义 /* * 1. 定义 * def sample( * withReplacement: Boolean, * fraction: Double, * seed: Long = Utils.random.nextLong): RDD[T] * withReplacement : 抽取数据后 阅读全文
posted @ 2022-03-23 14:33 学而不思则罔! 阅读(57) 评论(0) 推荐(0)
摘要: 1. 定义 /* * 1. 定义 * def filter(f: T => Boolean): RDD[T] * * 2. 功能 * 根据 传输函数 对Rdd元素进行过滤,剔除不符合条件的元素 * * 3. note * 1. 当数据进行筛选过滤后,分区不变,但是分区内的数据可能不均衡,生产环境下, 阅读全文
posted @ 2022-03-23 12:36 学而不思则罔! 阅读(79) 评论(0) 推荐(0)
摘要: 1. 定义 /* * 1. 定义 * //使用 hasPartitioner ; 分区个数使用 父RDD分区个数 * def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] * //使用 HashParti 阅读全文
posted @ 2022-03-23 12:15 学而不思则罔! 阅读(133) 评论(0) 推荐(0)
摘要: 1. 说明 /* * 1. 定义 * def glom(): RDD[Array[T]] * * 2. 功能 * 返回一个RDD,将每个分区内的所有元素合并成一个数组 * */ object RddTransitionOperator_glom extends App { private val s 阅读全文
posted @ 2022-03-23 08:30 学而不思则罔! 阅读(159) 评论(2) 推荐(0)
摘要: 1. 说明 /* * 1.定义 * def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] * * 2.功能 * 1.先将元素转换成一个迭代器 * 2.再遍历迭代器 返回新的集合 * * 3.调用流程 * 参数: 定义一个函数,作用分 阅读全文
posted @ 2022-03-23 07:56 学而不思则罔! 阅读(50) 评论(0) 推荐(0)