Hadoop和Hive学习笔记

Hadoop基础知识

Hadoop是Apache软件基金会下的一个开源项目，它允许对大型数据集进行分布式处理。Hadoop的核心组件包括HDFS（Hadoop分布式文件系统）和MapReduce编程模型。HDFS用于存储海量数据，而MapReduce则用于分布式计算。

HDFS（Hadoop Distributed File System）:
- HDFS是一个分布式文件系统，设计用于在商品硬件上运行，提供高容错性和高吞吐量的数据访问。它将数据分块存储，并将这些块分布在集群中的多个节点上。
- HDFS有两个主要的组件：NameNode和DataNode。NameNode负责管理文件系统的元数据，而DataNode负责存储实际的数据块。
MapReduce:
- MapReduce是一种编程模型，用于在大规模集群上处理和生成大数据集。它将计算任务分为两个主要步骤：Map和Reduce。
- 在Map步骤中，输入数据被分割成一系列独立的块，每个块由一个Map任务处理。Map任务处理后，会生成中间结果。接着，Reduce步骤会处理这些中间结果，生成最终输出。
YARN（Yet Another Resource Negotiator）:
- YARN是Hadoop的资源管理器，它管理计算资源并调度用户的应用程序。它将资源管理和任务调度分开，提供了更大的灵活性和可扩展性。

Hadoop的生态系统非常庞大，除了核心的HDFS和MapReduce外，还包括许多其他工具和框架，如：

Hive是基于Hadoop的一个数据仓库工具，提供了类SQL的查询语言——HiveQL，用户可以通过HiveQL对存储在Hadoop中的数据进行查询和管理。Hive将SQL查询转换为MapReduce任务执行，使得数据分析更加方便快捷。

Hive的架构主要包括以下几个部分：

HiveQL是一种类SQL的查询语言，用户可以使用它对存储在Hadoop中的数据进行操作。以下是一些基本的HiveQL语法示例：

创建数据库:

CREATE DATABASE mydb;
使用数据库:

USE mydb;
创建表:

CREATE TABLE employees ( id INT, name STRING, age INT, salary FLOAT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
加载数据:

LOAD DATA LOCAL INPATH '/path/to/data.csv' INTO TABLE employees;
查询数据:

SELECT * FROM employees WHERE age > 30;
插入数据:

INSERT INTO TABLE employees VALUES (1, 'John Doe', 35, 75000.0);
删除数据:

DELETE FROM employees WHERE age < 25;

分区:
- 分区是Hive中的一种数据组织方式，能够显著提高查询性能。通过对表进行分区，用户可以将数据按照某一字段的值进行划分。
- 例如，可以按日期对销售记录表进行分区：
  
  CREATE TABLE sales ( item STRING, quantity INT, price FLOAT ) PARTITIONED BY (date STRING);
桶（Buckets）:
- 桶是一种更细粒度的数据分区方式，通过哈希分桶，能够进一步提高查询效率。
- 例如，可以对员工表进行桶分：
  
  CREATE TABLE employees ( id INT, name STRING, age INT, salary FLOAT ) CLUSTERED BY (id) INTO 4 BUCKETS;
UDF（用户自定义函数）:
- Hive支持用户定义自己的函数（UDF），用于实现更复杂的查询和数据处理逻辑。
- 例如，可以创建一个简单的UDF来计算两个数的和：
  
  public class MyUDF extends UDF { public int evaluate(int a, int b) { return a + b; } }

在大数据分析过程中，数据预处理是一个重要的环节。通过Hadoop和Hive，可以高效地对海量数据进行清洗、转换和合并。

Hive提供了强大的数据查询能力，使得数据分析变得更加方便。用户可以使用HiveQL进行复杂的查询和统计分析，同时结合Hadoop的计算能力，能够处理大规模数据集。

HDFS提供了高效的分布式存储能力，能够存储和管理海量数据。而Hive的元数据存储和管理功能，使得用户可以方便地管理数据表和分区。

posted @ 2024-07-13 20:22 菜鸟de博客阅读(80) 评论(0) 收藏举报

刷新页面返回顶部