公告

日历

选择列式存储格式：
- 推荐使用 ORC 或 Parquet。它们支持列裁剪（只读需要的列）和谓词下推（在存储层过滤数据），并提供极高的压缩比。
合理设计分区（Partitioning）：
- 通过 WHERE 子句中的分区字段过滤，避免全表扫描。但要注意防止分区过细（如按分钟分区），否则会产生海量小文件，拖垮元数据库（HMS）和 NameNode。
分桶（Bucketing）：
- 对于经常需要进行 JOIN 或 SAMPLE 的大表，可以按 ID 分桶。分桶可以实现 SMB (Sort Merge Bucket) Join，将大表 Join 转化为本地小分片的 Join，极大地提升效率。

2. SQL 语法与逻辑优化

编写“Hive 友好”的 SQL 可以减少不必要的计算开销。

谓词下推 (Predicate Pushdown)：
- 确保过滤条件在 Join 之前执行。虽然 Hive 优化器会自动处理，但在复杂子查询中，手动提前过滤（使用 CTE 或子查询）更保险。
避免使用 SELECT *：
- 只选择业务需要的列，充分利用列式存储的优势，减少 IO 负载。
列修剪与分区裁剪：
- 查询时务必带上分区限制条件。

3. 执行引擎与计算参数调优

现代 Hive 生产环境建议全面弃用 MapReduce，转向 Tez 或 Spark。

切换执行引擎：
```
SET hive.execution.engine=tez; -- 或 spark
```
Tez 能将多个 MapReduce 阶段合并为一个 DAG，减少了中间数据落盘的次数。
开启向量化查询 (Vectorization)：
- 让 Hive 一次处理 1024 行数据而不是一行，显著提升 CPU 利用率。
```
SET hive.vectorized.execution.enabled = true;
SET hive.vectorized.execution.reduce.enabled = true;
```

小文件合并 (Compaction)：

SET hive.merge.mapfiles = true;
SET hive.merge.mapredfiles = true;
SET hive.merge.size.per.task = 256000000; -- 合并后的文件大小（约256MB）

数据倾斜是 Hive 任务变慢甚至 OOM（内存溢出）的最常见原因。

Join 倾斜：
- Map Join：如果一张表很小，将其直接加载到每个 Mapper 的内存中，避免 Shuffle。
  SET hive.auto.convert.join = true; SET hive.mapjoin.smalltable.filesize = 25000000; -- 默认25MB
- Skew Join 设置：开启 Hive 自动处理倾斜 key 的机制。
  SET hive.optimize.skewjoin = true;
Group By 倾斜：
- 开启负载均衡：通过两个 MapReduce 作业来处理，第一个作业随机分布数据进行预聚合。
  SET hive.groupby.skewindata = true;

开启并行执行：
- Hive 默认一次只执行一个 Stage。如果 SQL 中的多个 Stage 之间没有依赖关系（比如多个独立的子查询），可以并行运行。
```
SET hive.exec.parallel = true;
SET hive.exec.parallel.thread.number = 8;
```
动态申请资源 (CBO)：
- 开启 基于成本的优化器 (Cost-Based Optimizer)，让 Hive 根据表统计信息自动选择最优的执行路径。
```
SET hive.cbo.enable = true;
SET hive.stats.autogather = true; -- 自动收集统计信息
```

类别	检查项
存储	是否使用了 ORC/Parquet？是否有合理的分区？
引擎	是否使用了 Tez/Spark？是否开启了向量化？
逻辑	是否有 `SELECT *`？分区过滤条件是否下推？
倾斜	是否针对大 Key 开启了 MapJoin 或 SkewJoin 配置？
文件	结果路径下是否有大量 KB 级别的小文件？（需开启合并）

posted on 2025-12-24 22:10 ZhangZhihuiAAA 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部


博客园 © 2004-2025 浙公网安备 33010602011771号浙ICP备2021040463号-3