04 Hadoop思想与原理
1.用图与自己的话,简要描述Hadoop起源与发展阶段。
(1).Hadoop起源于开源网络搜索引擎Apache Nutch,Nutch开发人员也开发出了MapReduce系统。随后NDFS和MapReduce命名为Hadoop,成为了Apache顶级项目。
(2).Hadoop已成为Apache顶级项目,证明它是成功的,是一个多样化、活跃的社区。通过这次机会,Hadoop成功地被雅虎之外的很多公司应用,如Last.fm、Facebook和《纽约时报》。


2.用图与自己的话,简要描述名称节点、第二名称节点、数据节点的主要功能及相互关系。
主要功能
(1).名称节点维护着整个文件系统的文件目录树,文件/目录的元信息和文件的数据块索引,即每个文件对应的数据块列表(后面的讨论中,上述关系也称名称节点第一关系)。这些信息、以两种形式存储在本地文件系统中:一种是命名空间镜像(File System Image, FSImage,也称文件系统镜像),另一种是命名空间镜像的编辑日志(Edit Log) 。
(2).第二名称节点的作用在于为HDFS中的名称节点提供一个Checkpoint,它只是名称节点的一个助手节点,这也是它在社区内被认为是Checkpoint Node的原因。只有在NameNode重启时,edits才会合并到fsimage文件中,从而得到一个文件系统的最新快照。
(3).数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表
相互关系
名称节点(NameNode )是HDFS主从结构中主节点上运行的主要进程,它指导主从结构中的从节点,数据节点(DataNode)执行底层的I/O任务,名称节点是 HDFS集群中的单一故障点,通过第二名称节点的检查点,可以减少停机的时间并减低名称节点元数据丢失的风险。但是,第二名称节点不支持名称节点的故障白动恢复,名称节点失效处理需要人工干预。
浙公网安备 33010602011771号