摘要:
摘要:
1 shuffle原理
1.1 mapreduce的shuffle原理
1.1.1 map task端操作
1.1.2 reduce task端操作
1.2 spark现在的SortShuffleManager
2 Shuffle操作问题解决
2.1 数据倾斜原理
2.2 数据倾斜问题发现与解决
2.3 数据倾斜解决方案
3 spark RDD中的shuffle算子
3.1 去重
3.2 聚合
3.3 排序
3.4 重分区
4 spark shuffle参数调优 阅读全文