摘要:
Hive 调优是一个系统性工程,通常可以从 SQL 语法与逻辑优化、存储与数据布局、执行引擎与资源参数 以及 数据倾斜处理 四个维度展开。 1. 存储与数据布局调优(最关键) 在 Hive 中,数据如何“放置”直接决定了读取速度。 选择列式存储格式: 推荐使用 ORC 或 Parquet。它们支持列
阅读全文
posted @ 2025-12-24 22:10
ZhangZhihuiAAA
阅读(16)
推荐(0)
摘要:
Hive 的 Metastore(通常存储在 MySQL 或 PostgreSQL 中)是一个典型的关系型数据库。它存储了关于数据的所有元数据(即“关于数据的数据”),例如表名、列名、分区信息以及存储路径。 Metastore 的表结构非常多(通常有 50-70 张表),但最核心的可以归纳为以下几类
阅读全文
posted @ 2025-12-24 21:59
ZhangZhihuiAAA
阅读(8)
推荐(0)
摘要:
在 Hive 中,SerDe 是 Serializer(序列化器)和 Deserializer(反序列化器)的缩写。 它是 Hive 架构中非常核心的组件,充当了 HDFS 字节流 与 Hive 表格行/列 之间的“翻译官”。 1. SerDe 的核心工作流程 Hive 并不真正“拥有”数据,它只是
阅读全文
posted @ 2025-12-24 21:48
ZhangZhihuiAAA
阅读(8)
推荐(0)
摘要:
在 PySpark 和 PyFlink 中写入 Hive 表,本质上是利用这些引擎的 Writer(写入器) 按照 Hive 的元数据规范(分区、存储格式、序列化方式)将数据生成文件,并更新 Hive Metastore。 以下是具体的实现代码与核心配置: 1. PySpark 写入 Hive 表
阅读全文
posted @ 2025-12-24 21:03
ZhangZhihuiAAA
阅读(6)
推荐(0)
摘要:
在 PySpark 和 PyFlink 中读取 Hive 表,其核心逻辑都是通过特定的 Catalog 机制连接到 Hive Metastore (HMS),获取元数据后,直接读取底层的存储文件。 以下是具体的实现方式: 1. PySpark 读取 Hive PySpark 具有原生的 Hive 支
阅读全文
posted @ 2025-12-24 20:56
ZhangZhihuiAAA
阅读(5)
推荐(0)
摘要:
在 Hive 的语境下,Catalog(目录) 是元数据管理的高级抽象层。如果你把 Hive 比作一个图书馆,那么 Database 是书架,Table 是书,而 Catalog 就是整个图书馆的索引系统和管理边界。 在 Hive 3.0 之前,元数据的顶层就是 Database;但从 Hive 3
阅读全文
posted @ 2025-12-24 19:59
ZhangZhihuiAAA
阅读(13)
推荐(0)
摘要:
在 Hive 中将表存储为不同的格式,主要分为文件级格式(ORC, Parquet)和表级格式/数据湖格式(Iceberg, Hudi, Paimon, Delta Lake)两类。 1. 文件级格式 (ORC, Parquet) 这是 Hive 最基础的存储方式,直接在 CREATE TABLE
阅读全文
posted @ 2025-12-24 19:46
ZhangZhihuiAAA
阅读(5)
推荐(0)
摘要:
Hive 连接外部数据源的核心思路主要分为三类:Storage Handlers(用于数据库/NoSQL)、外部表(用于对象存储) 以及 连接器/打通工具(用于 Kafka)。 以下是针对不同数据源的详细连接方案: 1. 连接关系型数据库 (MySQL, Oracle, PostgreSQL) Hi
阅读全文
posted @ 2025-12-24 19:30
ZhangZhihuiAAA
阅读(12)
推荐(0)
摘要:
Apache Doris is a real-time analytical database with an architecture simplified into two primary components: the FE (Frontend) and the BE (Backend). T
阅读全文
posted @ 2025-12-24 10:58
ZhangZhihuiAAA
阅读(6)
推荐(0)
摘要:
Modern data architecture has shifted toward the "Data Lakehouse," where open table formats like Iceberg, Hudi, Paimon, and Delta Lake provide database
阅读全文
posted @ 2025-12-24 10:50
ZhangZhihuiAAA
阅读(15)
推荐(0)