2026年3月19日

摘要: 本文系统介绍 Hive 在 Join 优化与数据倾斜处理上的常用策略,结合实例与参数调优,帮助你在大数据任务中提升执行效率。 一、Hive Join优化 Hive 提供多种 Join 算法,适用于不同场景: 1. Common Join(默认) Map → Shuffle → Reduce 完成 J 阅读全文

posted @ 2026-03-19 13:45 飞行的蟒蛇 阅读(5) 评论(0) 推荐(0)

摘要: 一、 Map 端优化:从源头控制流量 Map 端的优化核心在于“合”与“控”,防止因输入切片不均或小文件过多导致的后续链路压力。 策略名称 核心参数/操作 治理原理 小文件合并 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiv 阅读全文

posted @ 2026-03-19 13:18 飞行的蟒蛇 阅读(4) 评论(0) 推荐(0)