大内容Spark（六十五）：Transformation转换算子groupByKey和filter

文章目录

Transformation转换算子groupByKey和filter

一、groupByKey

作用在K，V格式的RDD上，根据Key进行分组，返回（K，Iterable <V>）。对于需要对相同key进行聚合的场景使用reduceByKey更高效，因为reduceByKey会在各个分区中预先进行本地聚合，减少数据传输数量。

Java代码：

SparkConf conf = new SparkConf().setMaster("local").setAppName("GroupByKeyTest");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaPairRDD pairRDD = sc.parallelizePairs(Arrays.asList(
        new Tuple2<>("a", 1),
        new Tuple2<>("b", 2),
        new Tuple2<>("c", 3),
        new Tuple2<>("a", 4),
        new Tuple2<>("b", 5),
        new Tuple2<>("c", 6),
        new Tuple2<>("a", 7),
        new Tuple2<>("b", 8),
        new Tuple2<>("c", 9)
));
//groupByKey:将数据源中的数据，按照相同的key对value进行分组，形成一个新的可迭代的value
JavaPairRDD> result = pairRDD.groupByKey();
result.foreach(new VoidFunction>>() {
    @Override
    public void call(Tuple2> tp) throws Exception {
        String key = tp._1;
        Iterable values = tp._2;
        int sum = 0;
        for (Integer value : values) {
            sum += value;
        }
        System.out.println(key+":"+sum);
    }
});
sc.stop();

Scala代码：

val conf: SparkConf = new SparkConf().setMaster("local").setAppName("GroupByKeyTest")
val sc = new SparkContext(conf)
//groupByKey: 将RDD中的元素按照key进行分组
val result: RDD[(String, Iterable[Int])] = sc.parallelize(List(("a", 1), ("b", 2), ("c", 3), ("d", 4), ("a", 5), ("b", 6), ("c", 7), ("d", 8)))
  .groupByKey()
result.foreach(tp=>{
  val key: String = tp._1
  val values: Iterable[Int] = tp._2.toList
  var sum = 0
  for (value <- values) {
    sum += value
  }
  println(s"key:${key},sum:${sum}")
})
sc.stop()

二、filter

过滤符合条件的记录，根据传入的逻辑返回true的数据保留，返回false的数据过滤掉。

案例：过滤数据中长度大于5的字符串。