Hadoop

Hadoop主要由两个最核心的模块组成:HDFSMapReduce

  1. HDFS - Hadoop分布式文件系统

    • 作用负责存数据。它是一个高度容错性的系统,能提供高吞吐量的数据访问。
    • 工作原理:采用“主/从”架构。
      • NameNode(主节点):相当于“管理员”,负责管理文件系统的命名空间(如目录树)和记录每个文件数据块所在的服务器。
      • DataNode(从节点):相当于“仓库”,真正存储数据的地方。一个文件会被分割成多个数据块,并以多个副本的形式存储在不同的DataNode上,这样即使某台机器宕机,数据也不会丢失。
  2. MapReduce - 分布式计算框架

    • 作用负责算数据。它是一种编程模型,用于对海量数据进行并行计算。
    • 工作原理:计算过程分为两个阶段。
      • Map(映射)阶段:将大的计算任务拆分成许多小的子任务,分配到集群中的各个节点上进行并行处理。每个节点处理自己本地存储的数据,输出中间结果。
      • Reduce(归约)阶段:将Map阶段产生的所有中间结果进行汇总,得到最终的计算结果。
posted @ 2025-08-25 23:16  muxin1630  阅读(8)  评论(0)    收藏  举报