第七周第一天7.1

所用时间：315分钟
代码量（行）：198
了解到的知识点：
1.hive
Hive 是基于 Hadoop 构建的数据仓库工具，主要用于对大规模数据进行存储、查询和分析，其操作语法（Hive SQL）与传统 SQL 高度相似，降低了大数据分析的技术门槛。
要注意Hive 并非数据库，而是将 SQL 查询转换为 Hadoop 中的 MapReduce、Tez 或 Spark 任务来执行，核心价值体现在以下三点：
（1）降低门槛：熟悉 SQL 的用户无需编写复杂的 MapReduce 代码，即可直接分析 Hadoop 中的海量数据。
（2）处理海量数据：依托 Hadoop 的分布式架构，能高效处理 PB 级甚至更大规模的结构化、半结构化数据。
（3）灵活存储：数据通常存储在 HDFS（Hadoop 分布式文件系统）中，支持多种数据格式（如 CSV、Parquet、ORC 等），且表结构（元数据）与数据物理存储分离，便于管理。
Hive 更适合离线批处理分析，而非实时查询。

posted @ 2025-10-28 18:56 再报错就堵桥0 阅读(6) 评论(0) 收藏举报

刷新页面返回顶部

WMKQF

第七周第一天7.1

公告