Hadoop基础相关

Hadoop分而治之思想

概述:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台

Hadoop三大组件(非高可用集群):

1、HDFS:NameNode,SecondaryNameNode,DataNode

2、YARN:ResouManager,NodeManager

3、MapReduce:在启动集群的时候是没有的,提交MR作业任务的时候,会出现一个进程

NameNode(NN):

主要作用:

1、接收并处理用户请求

2、存储元数据

元数据:

1)存储文件的路径信息和权限信息

2)存储文件与block块的映射关系(一个文件切分之后的块相对应的名称)

3)存储block块与DN的关系(这个关系一开始并不存在,是在集群启动的时候,DN向NN汇报建立的,就是每个block块存储的位置信息,当其中的DN挂了(根据pingpang机制判断是否挂,超过3s没回应,则判断异常,超过10min没回应则挂了),可以根据这个信息将这个挂掉的DN中的block给均衡到其他的DN中去)

posted @ 2024-05-11 10:10  peculiar-  阅读(1)  评论(0编辑  收藏  举报