mapreduce流程

 

优化方法

数据输入

 1. 合并小文件 ,减少map任务数量

2.采用 combine inputformat作为输入,减少map端小文件数量

 

3.减少 spill次数 ,增大内存触发条件

4.减少merge次数

5.combine处理

 

6.合理处理  map和  reduce的次数

7.设置map和reduce并存,map不必执行完毕,reduce就可以运行

8.规避使用reduce

 

 

数据倾斜方法:

1.抽样和范围分区,得到分区划分的近似值

2.自定义分区   将数量多的key划分到一个reduce

3.combine map端处理

4.尽量采用map  join

 

posted on 2019-06-17 11:03  床上小老虎  阅读(115)  评论(0)    收藏  举报

导航