HIVE大数据出现倾斜怎么办

hive在跑数据时经常会出现数据倾斜的情况，使的作业经常reduce完成在99%后一直卡住，最后的１%花了几个小时都没跑完，通过YARN的管理界面配合日志，可以清楚其中的具体原因，这种情况就很可能是数据倾斜的原因，解决方法要根据具体情况来选择具体的方案

1.如果你知道某些字段造成的倾斜，可以把这些字段抽出来单独处理，这样的话，MR会多分配几个实例，提高执行速度。

set hive.exec.reducers.bytes.per.reducer = 1000000000

也就是每个节点的reduce 默认是处理1G大小的数据，如果你的join 操作也产生了数据倾斜，那么你可以在hive 中设定

set hive.optimize.skewjoin = true;
set hive.skewjoin.key = skew_key_threshold （default = 100000）

这个表示记录的行数，

hive 在运行的时候没有办法判断哪个key 会产生多大的倾斜，所以使用这个参数控制倾斜的阈值，如果超过这个值，新的值会发送给那些还没有达到的reduce, 一般可以设置成你（处理的总记录数/reduce个数）的2-4倍都可以接受.

3 reduce task数量太少，直接设置大它的数量试试

set mapred.reduce.tasks=xxx

默认是先设置hive.exec.reducers.bytes.per.reducer这个参数，设置了后hive会自动计算reduce的个数，因此两个参数一般不同时使用

posted on 2017-01-11 22:52 tneduts 阅读(573) 评论(0) 收藏举报

刷新页面返回顶部

我的空中楼阁