HDFS & YARN & MapReduce
HDFS
Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。
- NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等;
- DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和;
- Seconday NameNode(2nn):每隔一段时间对NameNode元数据备份;
HDFS(Hadoop Distributed File System)可以比喻为一个高效的数据管理系统,它将海量数据(例如100TB)分割成多个小块,并将这些数据块分散存储在多个节点中。NameNode负责记录每个数据块的存储位置,而DataNode则负责实际存储这些数据块。这种设计不仅提高了数据的可靠性和可用性,还优化了数据访问速度和系统的整体性能。通过这种方式,HDFS能够在多个节点之间平衡负载,实现高吞吐量的数据访问,同时确保数据的安全性和容错性。
YARN
YetAnother Resource Negotiator 简称 YARN,另一种资源协调者,是 Hadoop 的资源管理器。

MapReduce
MapReduce 将计算过程分为两个阶段:Map 和 Reduce
- Map 阶段并行处理输入数据
- Reduce 阶段对 Map 结果进行汇总
HDFS将海量数据(例如100TB)分割成多个小块,并将这些数据块分散存储在多个节点中。若是某个客户端需要从n个节点中读取所需要的数据,MapReduce将任务分派给每个node(Map),每个node查询的结果汇总(Reduce)。

HDFS & YARN & MapReduce

 
                    
                     
                    
                 
                    
                
 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号