算子groupByKey和reduceByKey的区别

groupByKey根据k对v进行分组,如果要实现wordCount,需要再使用一个聚合算子,例如mapValues

reduceByKey有聚合功能,最重要的是在shuffle过程之前可以对分区内相同key的数据进行预聚合(非常重要),这样shuffle过程中落盘的数据会减少,性能更好!

posted on 2022-08-05 18:02  吴玉川  阅读(39)  评论(0)    收藏  举报