公告

Hadoop初识

Posted on 2020-04-09 15:54 MissRong 阅读(136) 评论(0) 收藏举报

Hadoop框架讨论大数据生态

一、名字起源

该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的

二、项目起源

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发

Google是Hadoop的思想之源（Google在大数据方面的三篇论文）

GFS ====> HDFS

Map-Reduce ====>MR

BigTable ====>HBase

HDFS--分布式文件系统

常见的NoSQL数据库：

HBase--基于HDFS的分布式、面向列的NoSQL开源数据库（经常用于实时）

Redis--基于内存的NoSQL数据库，支持持久化：RDB和AOF

MongoDB--面向文档的NoSQL数据库

Cassandra--面向列的NoSQL数据库

NewSQL（如：SQL Azure）

三、Hadoop的优势

1.高可靠性：

因为Hadoop假设计算元素和存储会出现故障，所以它维护多个工作数据副本(默认三备份原则），在出现故障时可以对失败的节点重新分布处理。

2.高扩展性：

在集群间分配任务数据，可方便的扩展数以千计的节点。（动态扩容）

3.高效性：

在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

4.高容错性：

自动保存多份副本数据，并且能够自动将失败的任务重新分配。

四、Hadoop组成

1.Hadoop HDFS(Hadoop Distributed File System )：

一个高可靠、高吞吐量的分布式文件系统。

2.Hadoop MapReduce：

一个分布式的离线并行计算框架。

3.Hadoop YARN：

作业调度与集群资源管理的框架。

4.Hadoop Common：

支持其他模块的工具模块（Configuration、RPC、序列化机制、日志操作）。

五、HDFS架构概述

1.概念

HDFS，它是一个文件系统，全称：Hadoop Distributed File System，用于存储文件通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

2 .组成

1）HDFS集群包括，NameNode和DataNode以及Secondary Namenode。

2）NameNode（nn）负责管理整个文件系统的元数据（描述数据及其环境的数据），以及每一个路径（文件）所对应的数据块信息。

3）DataNode（dn） 负责管理用户的文件数据块（记录实际数据），每一个数据块都可以在多个datanode上存储多个副本。

如果默认NameNode为一个，DataNode一般就为三个。

4）Secondary NameNode（2nn）用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

六、YARN架构概述

1）ResourceManager(rm)：

处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度

2）NodeManager(nm)：

单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令

3）ApplicationMaster：

数据切分、为应用程序申请资源，并分配给内部任务、任务监控与容错

4）Container：

对任务运行环境的抽象，封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息

七、MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据

Reduce阶段对Map结果进行汇总

刷新页面返回顶部

MissRong

现时的明艳， 源于曾经奋斗的泪泉和牺牲的血雨。

公告