算子groupByKey和reduceByKey的区别
groupByKey根据k对v进行分组,如果要实现wordCount,需要再使用一个聚合算子,例如mapValues
reduceByKey有聚合功能,最重要的是在shuffle过程之前可以对分区内相同key的数据进行预聚合(非常重要),这样shuffle过程中落盘的数据会减少,性能更好!
groupByKey根据k对v进行分组,如果要实现wordCount,需要再使用一个聚合算子,例如mapValues
reduceByKey有聚合功能,最重要的是在shuffle过程之前可以对分区内相同key的数据进行预聚合(非常重要),这样shuffle过程中落盘的数据会减少,性能更好!