hive中笛卡尔积的优化

由于一个业务，必须要进行笛卡尔积，但是速度太慢了，left join时左表大概4万条数据，右表大概 3000多条数据，这样大概就是一亿多条数据，

这在大数据领域其实不算很大的数据量，但是hive中跑的特别慢。因为hive对笛卡尔积支持的不是很好，由于是全局的操作，所以只能在一个reduce中执行，导致速度比较慢。

然后想优化一下，尝试了一些方法。

比较直接能想到的解决方案是使用mapjoin，hive较高版本中是默认开启mapjoin的，在开启状态下会自动判断是否使用mapjoin，

我看了一下我的任务，是开启了mapjoin的

但是还是很慢，不知道是不是mapjoin没有生效。我关了自动mapjoin试了一下，发现更慢了。。。。看来mapjoin还是有用的。。。。。

所以尝试了一位网友的建议，很巧妙的一个想法：

注意使用这个最好把默认的自动mapjoin关掉，set hive.auto.convert.join=false，另外就是最好手动设置一下reduce的数量，若复制十倍，set mapred.reduce.tasks = 10，这样比较保险，但是reduce数量也不是越大越好。

修改之后从mapjoin的600秒降到了不到300秒,大任务上可能效果明显。

posted @ 2020-08-16 09:51 stAr_1 阅读(4350) 评论(0) 收藏举报

刷新页面返回顶部

stAr_1