安装OpenStack之安装YARN
本文来自厦门大学数据库实验室林子雨老师的《大数据技术原理与应用》课件,大数据技术原理与应用_中国大学MOOC(慕课) (icourse163.org),在学习时做的笔记。
Hadoop 2.0以及更高版本,使用YARN作为资源管理框架,YARN的体系结构包括三个部分:

YARN体系结构与工作流程
一、Resource Manager 是全局的资源管理器,负责整个系统的资源管理和分配,它由两个组件构成,即调度器 Scheduler 和应用程序管理器 Application Manager。整体上,Resource Manager 处理客户端请求,启动/监控Application Master,监控NodeManager,资源分配与调度。具体如下:
调度器 Scheduler 接收来自 Application Master 的应用程序资源请求(上图中,带箭头的圆点虚线所示),把集群中的资源以容器的形式分配给提出申请的应用程序,容器的选择通常会考虑应用程序索要处理的数据的位置,进行就近选择,从而实现计算向数据靠拢。
1)容器作为动态资源分配单位,每个容器中都封装了一定数量的CPU、内存、磁盘等资源,从而限定每个应用程序可以使用的资源量。2)调度器 Scheduler 是一个可插拔的组件,用户也可根据自己的需求重新设计调度器。3)应用程序管理器 Application Manager 负责系统中所有应用程序的管理工作,主要包括应用程序提交、与调度器协商资源以启动 Application Master,监控 Application Master 运行状态,并在失败时重新启动。
Resource Manager 接收用户提交的作业,按照作业的上下文信息以及从 Node Manager收集来的容器状态信息,启动调度过程,为用户作业启动一个Application Master
二、Application Master 为应用程序申请资源并分配给内部任务,任务调度、监控与容错。具体如下:
1)当用户提交作业时,Application Master 与 Resource Manager协商获取资源, Resource Manage以容器的形式为Application Master 分配资源。
2)把获得的资源进一步分配给内部的各个任务(Map或Reduce任务),即二次分配;3)Application Master 与 Node Manager 保持交互通信进行应用程序的启动、运行、监控和停止,监控资源的使用情况,对任务的执行进度和状态进行监控,并在失败是恢复(重新申请资源、重启任务)。4)定时向 Resource Manager 发送心跳信息,报告资源的使用情况和应用的进度。5)作业完成时,Application Master 向Resource Manager 申请注销容器。
三、Node Manager 负责单个节点上的资源管理,处理来自Resource Manager和Application Master的命令。
Node Manager 是驻留在一个YARN集群中的每个节点上的代理,主要负责:1)容器生命周期管理;2)监控每个容器的资源(CPU\内存)使用情况;3)跟踪节点健康状况;4)以心跳的方式与Resource Manager保持通信,汇报作业的资源使用情况和容器的运行状态;5)接收来自 Application Master 的启动/停止容器的各种命令。
Node Manager 主要负责管理抽象的容器,只处理与容器相关的事情,不具体负责每个任务(Map或Reduce任务)的管理,这些应用的管理由Application Master负责。

YARN与Hadoop平台其它组件的统一部署
安装虚拟机、vim,openssh-server,安装jdk和配置JAVA_HOME,安装Hadoop,配置Hadoop的伪分布式的步骤参照林子雨老师的教程 Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)_厦大数据库实验室博客 (xmu.edu.cn),
在完成Hadoop的伪分布式安装之后,在hadoop的安装目录下,继续修改配置文件 /etc/hadoop/mapred-site.xml和yarn-site.xml,分别如下:


最后,在hadoop的安装目录下,测试运行yarn,命令如下:
./sbin/start-yarn.sh

运行yarn,以及查看进程

访问资源管理器的web接口,http://localhost:8088

浙公网安备 33010602011771号