Hive中的4种Join方式

common join

普通join，性能较差，存在Shuffle

适用情况：大表join小表时，做不等值join

原理：将小表数据广播到各个节点，存储在内存中，在map阶段直接join，不需要进行reduce，没有了shuffle

优点：性能大大提高

限制：小表需要在内存中放的下

eg:

select a.start_level, b.*
from dim_level a
join (select * from test) b
where b.xx>=a.start_level and b.xx<end_level;

PS：下列说法均已过期，现已不存在
1）小表在前，大表之后   Hive 0.6之后就可以自动识别，前后无所谓
2) 需要使用使 /*+mapjoin(map_table) / 提示   Hive0.11后会将满足相关参数的Join自动转为map join,无需显示标注，标注也行

适用情况：分桶表join

原理：类似map join，不过只需要内存加载对应的小表分桶就可以

优点：性能大大提高

限制：

适用情况：大表join大表

原理：桶中的数据基于分桶字段排序后，可以将每个桶对应连接转化为归并排序，进一步提高join效率，将bucket map oin升级为Sort-Merage-bucket join

限制：

posted @ 2021-08-31 16:40 梦里繁花阅读(729) 评论(0) 收藏举报

刷新页面返回顶部