随笔分类 - Spark

Spark中的reduceByKey()和groupByKey()的区别

摘要：一、先看结论1.从Shuffle的角度 reduceByKey 和 groupByKey都存在shuffle操作，但是reduceByKey可以在shuffle之前对分区内相同key的数据集进行预聚合（combine）功能，这样会较少落盘的数据量，而groupByKey只是进行分组，不存在数据量减少阅读全文

posted @ 2021-11-17 16:57 Chen洋阅读(1713) 评论(0) 推荐(0)

Chen洋

随笔分类 - Spark

公告