Hadoop

Hadoop主要由两个最核心的模块组成：HDFS 和 MapReduce。

HDFS - Hadoop分布式文件系统
- 作用：负责存数据。它是一个高度容错性的系统，能提供高吞吐量的数据访问。
- 工作原理：采用“主/从”架构。
  - NameNode（主节点）：相当于“管理员”，负责管理文件系统的命名空间（如目录树）和记录每个文件数据块所在的服务器。
  - DataNode（从节点）：相当于“仓库”，真正存储数据的地方。一个文件会被分割成多个数据块，并以多个副本的形式存储在不同的DataNode上，这样即使某台机器宕机，数据也不会丢失。
MapReduce - 分布式计算框架
- 作用：负责算数据。它是一种编程模型，用于对海量数据进行并行计算。
- 工作原理：计算过程分为两个阶段。
  - Map（映射）阶段：将大的计算任务拆分成许多小的子任务，分配到集群中的各个节点上进行并行处理。每个节点处理自己本地存储的数据，输出中间结果。
  - Reduce（归约）阶段：将Map阶段产生的所有中间结果进行汇总，得到最终的计算结果。

posted @ 2025-08-25 23:16 muxin1630 阅读(11) 评论(0) 收藏举报

刷新页面返回顶部