ZhangZhihui's Blog

公告

日历

Hive 会将 UPDATE 转换成：
- 一条删除标记（delete delta）
- 一条新数据（insert delta）
HDFS 中的原文件不会被直接修改，而是新增增量文件（delta）。
只有执行 Major Compaction 后，才会把旧数据和新数据合并成新的 base 文件，并删除旧文件。

📂 HDFS 文件变化示例
假设原文件：

执行：

结果 HDFS 目录会多两个文件：

数据读取时，Hive 会合并 base 文件和 delta 文件，屏蔽已删除的旧版本。

🔍 总结：UPDATE/DELETE 在 Hive 中的本质

非 ACID 表：不支持，等同于手动全表或分区覆盖（INSERT OVERWRITE）。
ACID 表：采用 MVCC + delta 文件，原文件不直接改，数据更新会生成新文件；只有合并（Compaction）才会物理替换。

我帮你画一张 Hive ACID 表中 INSERT / UPDATE / DELETE 文件变化示意图，让你直观理解数据是如何在 HDFS 里增量变化的。

Hive ACID 表文件变化示意图

初始状态：
/warehouse/sales/month=2020-01/
    └── base_0000000            （初始完整数据文件）

执行 INSERT：
    └── base_0000000
    └── delta_0000001_0000001   （新增数据文件）

执行 UPDATE：
    └── base_0000000
    └── delta_0000001_0000001
        ├── delete_event_0000001   （被更新数据的删除标记）
        └── insert_event_0000001   （更新后新数据）

执行 DELETE：
    └── base_0000000
    └── delta_0000001_0000001
        └── delete_event_0000001   （被删除数据的删除标记）

Major Compaction 后：
    └── base_0000002             （合并后包含最新数据的完整文件）
    （旧的 base 和 delta 文件被删除）

说明

base 文件：全量数据快照。
delta 文件：增量数据，包括插入和删除标记。
Hive 查询时会合并 base 和 delta，展现最新的数据视图。
Major Compaction 是后台任务，合并小文件、清理历史文件，提高查询性能。

posted on 2025-08-12 10:38 ZhangZhihuiAAA 阅读(152) 评论(0) 收藏举报

刷新页面返回顶部

导航

1. INSERT

情况 1：`INSERT OVERWRITE`

情况 2：`INSERT INTO`

2. DELETE

情况 1：非 ACID 表（默认 Text/Parquet/ORC 无事务）

情况 2：ACID 表（事务表，ORC + `transactional=true`）

🔍 总结表

1. 非事务表（默认 Text/Parquet/ORC 无事务）

2. ACID 事务表（`transactional=true` 且存储格式支持 ORC）

🔍 总结：UPDATE/DELETE 在 Hive 中的本质

Hive ACID 表文件变化示意图

说明


博客园 © 2004-2025 浙公网安备 33010602011771号浙ICP备2021040463号-3

导航

1. INSERT

情况 1：INSERT OVERWRITE

情况 2：INSERT INTO

2. DELETE

情况 1：非 ACID 表（默认 Text/Parquet/ORC 无事务）

情况 2：ACID 表（事务表，ORC + transactional=true）

🔍 总结表

1. 非事务表（默认 Text/Parquet/ORC 无事务）

2. ACID 事务表（transactional=true 且存储格式支持 ORC）

🔍 总结：UPDATE/DELETE 在 Hive 中的本质

Hive ACID 表文件变化示意图

说明

情况 1：`INSERT OVERWRITE`

情况 2：`INSERT INTO`

情况 2：ACID 表（事务表，ORC + `transactional=true`）

2. ACID 事务表（`transactional=true` 且存储格式支持 ORC）