摘要: 摘要:  1 shuffle原理   1.1 mapreduce的shuffle原理     1.1.1 map task端操作     1.1.2 reduce task端操作    1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决    2.1 数据倾斜原理 2.2 数据倾斜问题发现与解决 2.3 数据倾斜解决方案 3 spark RDD中的shuffle算子 3.1 去重 3.2 聚合 3.3 排序 3.4 重分区 4 spark shuffle参数调优 阅读全文
posted @ 2016-11-11 16:55 混沌战神阿瑞斯 阅读(31065) 评论(8) 推荐(2) 编辑