hadoop 生态环境

HDFS角色及概念
hadoop体系中数据存储管理的基础,是一个高度蓉错的系统,用于在低成本的通用硬件上运行
角色和概念
— Client
— NameNode
— Secondarynode
— Datanode
NameNode
— Master节点,管理HDFS的(名称空间和数据块映射信息)就是fsimag,(配置副本策略)和Els差不多,处理所有客户端请求
Secondary NameNode (简称小秘)
— 定期合并fsimage和fsedits补丁,推送给NameNode
— 紧急情况下,可辅助恢复NameNode
但Secondary NameNode并非NameNode的热备
DataNode
— 数据存储节点,存储实际数据
— 汇报存储信息给NameNode
Client (客户端,执行顺序)
— 切分文件 (1)
— 访问HdFS
— 与NameNode交互,获取文件位置信息(2)
— 与DataNode交互,读取和写入数据 (3)
Block(存储块)
— 每块128MB大小 (4)
— 每块可以多个副本

如图:
Client 切分文件 > NameNode > DataNode 每块存储128MB > 记录本 fsimgs(名称空间数据块映射信息)Secondary NameNode 定期合并fsimage和fsedits补丁推送给NameNode
Client 切分文件如3块数据给NameNode,NameNode,返回DataNode地址给Client存储,NameNode记录在fsimage上
取数据直接告诉Client取对应路径的数据
Client 更新数据修改在fsedits上Secondary NameNode 定期合并fsimage和fsedits补丁推送给NameNode
Yarn结构

Yarn角色及概念
Yarn是Hadoop的一个通用的资源管理系统
Yarn角色
— Resourcemanager
— Nodemanager
— ApplicationMaster
— Container
— Client
ResourceMangager
— 处理客户端请求
— 启动/监控ApplicationMaster
— 监控NodeManager
— 资源分配与监控
NodeManager
— 单个节点上的资源管理
— 处理来自ResourceManager的命令
— 处理来自ApplicationMaster的命命令
Container
— 对任务运行环境的抽象,封装了CPU,内存等
— 多维资源以及环境变量,启动命令等任务运行相关的资源信息资源分配与调度
ApplicationMaster
— 数据切分
— 为应用组程序申请资源,并分配给内部任务
— 任务监控与容错
Client
— 用户与Yarn交互的客户端程序
— 提交应用程序,监控应用程序状态,杀死应用程序等
Yarn的核心思想
将jobTracker和TaskTacker进行分离,它由下面几大结构组件
— ResourceManager一个全局的资源管理器
— NodeManager每个节点(RM)代理
— ApplicationMaster表示每个应用
— 每一个ApplicationMaster有多个Container在NodeManager上运行
 
                     
                    
                 
                    
                
 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号