hadoop简介

1.大数据生态系统

2 大数据部门结构

3 Hadoop入门教程

Hadoop是Apache开源组织的一个分布式计算开源框架，用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。

Hadoop框架中最核心设计就是：HDFS和MapReduce，HDFS实现存储，而MapReduce实现原理分析处理，这两部分是hadoop的核心。

4 HDFS文件系统

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。

HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（largedata set）的应用程序。

3.1 HDFS的master/slave构架

一个HDFS集群是有一个Namenode和一定数目的Datanode组成。

Namenode是一个中心服务器，负责管理文件系统的namespace和客户端对文件的访问。

Datanode在集群中一般是一个节点一个，负责管理节点上它们附带的存储。在内部，一个文件其实分成一个或多个block，这些block存储在Datanode集合里。

3.2 HDFS关键元素

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块列表所在的DataNode等
（2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和
（3）Secondary NameNode(2nn) :用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照

5 MapReduce文件系统

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。MapReduce将分成两个部分"Map（映射）"和"Reduce（归约）"。

当你向MapReduce框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。

步骤1：首先对输入数据源进行切片

步骤2：master调度worker执行map任务

步骤4：worker读取输入源片段，worker执行map任务，将任务输出保存在本地

步骤5：master调度worker执行reduce任务

步骤6：worker读取map任务的输出文件，worker执行执行reduce任务，将任务输出保存到HDFS

6 Yarn

posted on 2020-10-30 16:44 happygril3 阅读(147) 评论(0) 收藏举报

刷新页面返回顶部

happygril3