随笔分类 -  Spark

摘要:一、先看结论1.从Shuffle的角度 reduceByKey 和 groupByKey都存在shuffle操作,但是reduceByKey可以在shuffle之前对分区内相同key的数据集进行预聚合(combine)功能,这样会较少落盘的数据量,而groupByKey只是进行分组,不存在数据量减少 阅读全文
posted @ 2021-11-17 16:57 Chen洋 阅读(1700) 评论(0) 推荐(0)