hadoop01-hadoop是什么,以及hadoop的组成

Hadoop是什么:

海量数据的存储和计算。

GFS --> HDFS

Map-Reduce --> MR

BigTable --> HBase

Hadoop优势:

  1. 高可靠性:hadoop底层维护多个数据副本,所以hadoop摸个计算元素或存储出现故障,也不会导致数据的丢失。

  2. 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点(动态增加或减少机器)

  3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,已加快任务处理速度

     

     

  4. 高容错性:能够自动将失败的任务重新分配

     

     

Hadoop的组成(重点):

 

 

HDFS:

Hadoop Distributed File System,简称HDFS,是一个分布式文件存储系统

  1. NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

  2. DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

  3. Secondary NameNode(2nn):每隔一段时间,对NameNode元数据备份

YARN:

Yet Another Resource Negotiator 简称YARN,另一种资源协调者,是Hadoop的资源管理器

 

 

MapReduce:

主要负责Hadoop的计算工作。

计算过程分为两个阶段:

  1. Map阶段:并行处理输入的数据

  2. Reduce阶段:对Map结果进行汇总

 

 

HDFS,YARN和MapReduce 三者之间的关系:

 

 

大数据生态体系:

 

 

posted @ 2022-03-09 18:26  迷路小孩  阅读(73)  评论(0)    收藏  举报