Hadoop初识

Posted on 2020-04-09 15:54  MissRong  阅读(132)  评论(0)    收藏  举报

Hadoop框架讨论大数据生态

一、名字起源

该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的

二、项目起源

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发

Google是Hadoop的思想之源(Google在大数据方面的三篇论文)

GFS      ====> HDFS

Map-Reduce ====>MR

BigTable    ====>HBase

   HDFS--分布式文件系统

   常见的NoSQL数据库:

                HBase--基于HDFS的分布式、面向的NoSQL开源数据库(经常用于实时)

                Redis--基于内存的NoSQL数据库,支持持久化:RDB和AOF

                MongoDB--面向文档的NoSQL数据库

                Cassandra--面向的NoSQL数据库

    NewSQL(如:SQL Azure)

 

 

三、Hadoop的优势

1.高可靠性:

因为Hadoop假设计算元素和存储会出现故障,所以它维护多个工作数据副本(默认三备份原则),在出现故障时可以对失败的节点重新分布处理。

2.高扩展性:

在集群间分配任务数据,可方便的扩展数以千计的节点。动态扩容)

3.高效性:

在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

4.高容错性:

自动保存多份副本数据,并且能够自动将失败的任务重新分配。

四、Hadoop组成

1.Hadoop HDFS(Hadoop Distributed File System ):

一个高可靠、高吞吐量的分布式文件系统

2.Hadoop MapReduce:

一个分布式的离线并行计算框架。

3.Hadoop YARN:

作业调度与集群资源管理的框架。

4.Hadoop Common:

支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。

五、HDFS架构概述

1.概念

HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

2 .组成

1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。

2)NameNodenn)负责管理整个文件系统的元数据描述数据及其环境的数据,以及每一个路径(文件)所对应的数据块信息。

3)DataNodedn) 负责管理用户的文件数据块记录实际数据),每一个数据块都可以在多个datanode上存储多个副本。

如果默认NameNode为一个,DataNode一般就为三个。

4)Secondary NameNode2nn)用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

六、YARN架构概述

1)ResourceManager(rm)

处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度

2)NodeManager(nm)

单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令

3)ApplicationMaster:

数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错

4)Container:

对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息

七、MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

Map阶段并行处理输入数据

Reduce阶段对Map结果进行汇总

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3