Hadoop集群各角色介绍

一、HDFS

1、NameNode‌

主角色‌:负责管理HDFS的元数据(如文件目录树、权限、数据块映射关系)。

‌核心功能‌:处理客户端请求、配置副本策略(默认3副本)、监控DataNode状态

2、DataNode

‌从角色‌:存储实际数据块(默认128MB/块),执行数据读写操作。

‌辅助职能‌:定期向NameNode上报心跳及块状态,保证数据可靠性

3、‌Secondary NameNode

辅助角色‌:合并NameNode的编辑日志(Edits)和镜像文件(FsImage),防止NameNode单点故障恢复耗时过长,但非实时备份节点

二、Yarn

1、ResourceManager(RM)

‌主角色‌:全局资源调度器,负责集群资源的分配与管理(如CPU、内存)

‌功能特性‌:接收客户端提交的作业,协调NodeManager资源分配,支持多种计算框架(MapReduce、Spark等)

2、NodeManager (NM)

从角色‌:单节点资源管理器,执行RM分配的任务。

‌职责‌:监控容器(Container)资源使用情况,上报节点状态至RM

3、JobHistoryServer‌

‌历史任务追踪‌:存储已完成作业的日志和元数据,支持用户查询历史任务状态

‌独立进程‌:需单独启动,不参与实时资源调度

4、协作流程

(1)客户端提交应用至RM

(2)RM分配Container启动AM

(3)AM与RM协商资源,NM执行具体任务

(4)任务完成后,日志由JobHistoryServer归档

三、Spark

 

posted @ 2025-05-26 18:19  Robots2  阅读(67)  评论(0)    收藏  举报