Hadoop
Hadoop主要由两个最核心的模块组成:HDFS 和 MapReduce。
-
HDFS - Hadoop分布式文件系统
- 作用:负责存数据。它是一个高度容错性的系统,能提供高吞吐量的数据访问。
- 工作原理:采用“主/从”架构。
- NameNode(主节点):相当于“管理员”,负责管理文件系统的命名空间(如目录树)和记录每个文件数据块所在的服务器。
- DataNode(从节点):相当于“仓库”,真正存储数据的地方。一个文件会被分割成多个数据块,并以多个副本的形式存储在不同的DataNode上,这样即使某台机器宕机,数据也不会丢失。
-
MapReduce - 分布式计算框架
- 作用:负责算数据。它是一种编程模型,用于对海量数据进行并行计算。
- 工作原理:计算过程分为两个阶段。
- Map(映射)阶段:将大的计算任务拆分成许多小的子任务,分配到集群中的各个节点上进行并行处理。每个节点处理自己本地存储的数据,输出中间结果。
- Reduce(归约)阶段:将Map阶段产生的所有中间结果进行汇总,得到最终的计算结果。
浙公网安备 33010602011771号