Hadoop框架讨论大数据生态
一、名字起源
该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的

二、项目起源
Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发
Google是Hadoop的思想之源(Google在大数据方面的三篇论文)
GFS ====> HDFS
Map-Reduce ====>MR
BigTable ====>HBase
|
HDFS--分布式文件系统 常见的NoSQL数据库: HBase--基于HDFS的分布式、面向列的NoSQL开源数据库(经常用于实时) Redis--基于内存的NoSQL数据库,支持持久化:RDB和AOF MongoDB--面向文档的NoSQL数据库 Cassandra--面向列的NoSQL数据库 NewSQL(如:SQL Azure)
|
三、Hadoop的优势
1.高可靠性:
因为Hadoop假设计算元素和存储会出现故障,所以它维护多个工作数据副本(默认三备份原则),在出现故障时可以对失败的节点重新分布处理。
2.高扩展性:
在集群间分配任务数据,可方便的扩展数以千计的节点。(动态扩容)
3.高效性:
在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
4.高容错性:
自动保存多份副本数据,并且能够自动将失败的任务重新分配。
四、Hadoop组成

1.Hadoop HDFS(Hadoop Distributed File System ):
一个高可靠、高吞吐量的分布式文件系统。
2.Hadoop MapReduce:
一个分布式的离线并行计算框架。
3.Hadoop YARN:
作业调度与集群资源管理的框架。
4.Hadoop Common:
支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。
五、HDFS架构概述
1.概念
HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
2 .组成
1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。
2)NameNode(nn)负责管理整个文件系统的元数据(描述数据及其环境的数据),以及每一个路径(文件)所对应的数据块信息。
3)DataNode(dn) 负责管理用户的文件数据块(记录实际数据),每一个数据块都可以在多个datanode上存储多个副本。
如果默认NameNode为一个,DataNode一般就为三个。
4)Secondary NameNode(2nn)用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
六、YARN架构概述
1)ResourceManager(rm):
处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度
2)NodeManager(nm):
单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令
3)ApplicationMaster:
数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错
4)Container:
对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息
七、MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce
Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总


浙公网安备 33010602011771号