hadoop01-hadoop是什么,以及hadoop的组成
海量数据的存储和计算。
Map-Reduce --> MR
BigTable --> HBase
Hadoop优势:
高可靠性:hadoop底层维护多个数据副本,所以hadoop摸个计算元素或存储出现故障,也不会导致数据的丢失。
高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点(动态增加或减少机器)
高效性:在MapReduce的思想下,Hadoop是并行工作的,已加快任务处理速度
高容错性:能够自动将失败的任务重新分配
Hadoop的组成(重点):

HDFS:
Hadoop Distributed File System,简称HDFS,是一个分布式文件存储系统。
NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
Secondary NameNode(2nn):每隔一段时间,对NameNode元数据备份
YARN:
Yet Another Resource Negotiator 简称YARN,另一种资源协调者,是Hadoop的资源管理器。

MapReduce:
主要负责Hadoop的计算工作。
计算过程分为两个阶段:
Map阶段:并行处理输入的数据
Reduce阶段:对Map结果进行汇总

HDFS,YARN和MapReduce 三者之间的关系:

大数据生态体系:




浙公网安备 33010602011771号