Hadoop集群各角色介绍
一、HDFS
1、NameNode
主角色:负责管理HDFS的元数据(如文件目录树、权限、数据块映射关系)。
核心功能:处理客户端请求、配置副本策略(默认3副本)、监控DataNode状态
2、DataNode
从角色:存储实际数据块(默认128MB/块),执行数据读写操作。
辅助职能:定期向NameNode上报心跳及块状态,保证数据可靠性
3、Secondary NameNode
辅助角色:合并NameNode的编辑日志(Edits)和镜像文件(FsImage),防止NameNode单点故障恢复耗时过长,但非实时备份节点
二、Yarn
1、ResourceManager(RM)
主角色:全局资源调度器,负责集群资源的分配与管理(如CPU、内存)
功能特性:接收客户端提交的作业,协调NodeManager资源分配,支持多种计算框架(MapReduce、Spark等)
2、NodeManager (NM)
从角色:单节点资源管理器,执行RM分配的任务。
职责:监控容器(Container)资源使用情况,上报节点状态至RM
3、JobHistoryServer
历史任务追踪:存储已完成作业的日志和元数据,支持用户查询历史任务状态
独立进程:需单独启动,不参与实时资源调度
4、协作流程
(1)客户端提交应用至RM
(2)RM分配Container启动AM
(3)AM与RM协商资源,NM执行具体任务
(4)任务完成后,日志由JobHistoryServer归档
三、Spark

浙公网安备 33010602011771号