第七周第一天7.1
所用时间:315分钟
代码量(行):198
了解到的知识点:
1.hive
Hive 是基于 Hadoop 构建的数据仓库工具,主要用于对大规模数据进行存储、查询和分析,其操作语法(Hive SQL)与传统 SQL 高度相似,降低了大数据分析的技术门槛。
要注意Hive 并非数据库,而是将 SQL 查询转换为 Hadoop 中的 MapReduce、Tez 或 Spark 任务来执行,核心价值体现在以下三点:
(1)降低门槛:熟悉 SQL 的用户无需编写复杂的 MapReduce 代码,即可直接分析 Hadoop 中的海量数据。
(2)处理海量数据:依托 Hadoop 的分布式架构,能高效处理 PB 级甚至更大规模的结构化、半结构化数据。
(3)灵活存储:数据通常存储在 HDFS(Hadoop 分布式文件系统)中,支持多种数据格式(如 CSV、Parquet、ORC 等),且表结构(元数据)与数据物理存储分离,便于管理。
Hive 更适合离线批处理分析,而非实时查询。

浙公网安备 33010602011771号