04-Hadoop思想与原理

1.用图与自己的话，简要描述Hadoop起源与发展阶段。

2.用图与自己的话，简要描述名称节点、第二名称节点、数据节点的主要功能及相互关系。

3.分别从以下这些方面，梳理清楚HDFS的结构与运行流程，以图的形式描述。

客户端与HDFS
客户端读
客户端写
数据结点与集群
数据结点与名称结点
名称结点与第二名称结点
数据结点与数据结点
数据冗余
数据存取策略
数据错误与恢复

Hadoop 起源

Hadoop起源于Apache Nutch项目，始于2002年，是Apache Lucene的子项目之一。2004年，Google在“操作系统设计与实现”（Operating System Design and Implementation，OSDI）会议上公开发表了题为MapReduce：Simplified Data Processing on Large Clusters（Mapreduce：简化大规模集群上的数据处理）的论文之后，受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架，并将它与NDFS（Nutch Distributed File System）结合，用以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有着良好的应用，所以它们于2006年2月被分离出来，成为一套完整而独立的软件，并被命名为Hadoop。到了2008年年初，hadoop已成为Apache的顶级项目，包含众多子项目，被应用到包括Yahoo在内的很多互联网公司^。

HDFS集群有两种节点，以管理者-工作者的模式运行，即一个名称节点(管理者)和多个数据节点(工作者)。名称节点管理文件系统的命名空间。它维护着这个文件系统树及这个树内所有的文件和索引目录。这些信息以两种形式将文件永久保存在本地磁盘上：命名空间镜像和编辑日志。名称节点也记录着每个文件的每个块所在的数据节点，但它并不永久保存块的位置，因为这些信息会在系统启动时由数据节点重建。

客户端代表用户通过与名称节点和数据节点交互来访问整个文件系统。客户端提供一个类似POSIX(可移植操作系统界面)的文件系统接口，因此用户在编程时并不需要知道名称节点和数据节点及其功能。

数据节点是文件系统的工作者。它们存储并提供定位块的服务(被用户或名称节点调用时)，并且定时的向名称节点发送它们存储的块的列表。

没有名称节点，文件系统将无法使用。事实上，如果运行名称节点的机器被毁坏了，文件系统上所有的文件都会丢失，因为我们无法知道如何通过数据节点上的块来重建文件。因此，名称节点能够经受故障是非常重要的，Hadoop提供了两种机制来确保这一点。

第一种机制就是复制那些组成文件系统元数据持久状态的文件。Hadoop可以通过配置使名称节点在多个文件系统上写入其持久化状态。这些写操作是具同步性和原子性的。一般的配置选择是，在本地磁盘上写入的同时，写入一个远程NFS挂载(mount)。

另一种可行的方法是运行一个二级名称节点，虽然它不能作为名称节点使用。这个二级名称节点的重要作用就是定期的通过编辑日志合并命名空间镜像，以防止编辑日志过大。这个二级名称节点一般在其他单独的物理计算机上运行，因为它也需要占用大量CPU和内存来执行合并操作。它会保存合并后的命名空间镜像的副本，在名称节点失效后就可以使用。但是，二级名称节点的状态是比主节点滞后的，所以主节点的数据若全部丢失，损失仍在所难免。在这种情况下，一般把存在NFS上的主名称节点元数据复制到二级名称节点上并将其作为新的主名称节点运行。

HDFS文件读流程：

    首先调用FileSystem对象的open方法，其实是一个DistributedFileSystem的实例。
    DistributedFileSystem通过RPC获得文件的第一批block的locations，同一block按照重复数（replication）会返回多个locations，这些locations按照hadoop拓扑结构排序，距离客户端近的排在前面。
    前两步会返回一个FSDataInputStream对象，该对象会被封装成DFSInputStream对象，DFSInputStream可以方便的管理ＤＮ和ＮＮ数据流。客户端调用read方法，DFSInputStream最会找出离客户端最近的ＤＮ并连接。
    数据从ＤＮ源源不断的流向客户端。
    如果第一块的数据读完了，就会关闭指向第一块的ＤＮ连接，接着读取下一块。这些操作对客户端来说是透明的，客户端的角度看来只是读一个持续不断的流。
    如果第一批block都读完了，DFSInputStream就会去ＮＮ拿下一批blocks的location，然后继续读，如果所有的块都读完，Client调用FSDataInputStream.close()方法,关闭输入流。

注意：

    如果在读数据的时候，DFSInputStream和ＤＮ的通讯发生异常，就会尝试正在读的block的排第二近的ＤＮ,并且会记录哪个ＤＮ发生错误，剩余的blocks读的时候就会直接跳过该ＤＮ。DFSInputStream也会检查block数据校验，如果发现一个坏的block,就会先报告到ＮＮ节点，然后DFSInputStream在其他的ＤＮ上读该block的镜像。
    该设计的方向就是客户端直接连接ＤＮ来检索数据并且ＮＤ来负责为每一个block提供最优的ＤＮ，ＮＤ仅仅处理block location的请求，这些信息都加载在ND的内存中，HDFS通过DN集群可以承受大量客户端的并发访问。

HDFS文件写流程：
这里写图片描述

    客户端通过调用DistributedFileSystem的create方法创建新文件。
    DistributedFileSystem通过RPC调用ND去创建一个没有blocks关联的新文件，创建前，ND会做各种校验，比如文件是否存在，客户端有无权限去创建等。如果校验通过，ND就会记录下新文件，否则就会抛出IO异常。
    前两步结束后会返回FSDataOutputStream的对象，与读文件的时候相似，FSDataOutputStream被封装成DFSOutputStream，他可以协调NN和DN。客户端开始写数据到DFSOutputStream，DFSOutputStream会把数据切成一个个小packet，然后排成队列data quene。
    DataStreamer会去处理接受data quene，他先问询ND这个新的block最适合存储的在哪几个DN里（参考第二小节），比如重复数是3，那么就找到3个最适合的DN，把他们排成一个pipeline，DataStreamer把packet按队列输出到管道的第一个DN中，第一个DN又把packet输出到第二个ND中，以此类推。
    DFSOutputStream还有一个对列叫ack quene，也是由packet组成，等待DN的收到响应，当pipeline中的所有DN都表示已经收到的时候，这时akc quene才会把对应的packet包移除掉。
    客户端完成写数据后调用close方法关闭写入流。
    DataStreamer把剩余得包都刷到pipeline里然后等待ack信息，收到最后一个ack后，Client调用FSDataOutputStream.close()方法,关闭输出流，flush缓存区的数据包。
    调用FileSystem.complete()方法,告诉NN节点写入成功。

首先调用FileSystem对象的open方法，其实是一个DistributedFileSystem的实例。
DistributedFileSystem通过RPC获得文件的第一批block的locations，同一block按照重复数（replication）会返回多个locations，这些locations按照hadoop拓扑结构排序，距离客户端近的排在前面。
前两步会返回一个FSDataInputStream对象，该对象会被封装成DFSInputStream对象，DFSInputStream可以方便的管理ＤＮ和ＮＮ数据流。客户端调用read方法，DFSInputStream最会找出离客户端最近的ＤＮ并连接。
数据从ＤＮ源源不断的流向客户端。
如果第一块的数据读完了，就会关闭指向第一块的ＤＮ连接，接着读取下一块。这些操作对客户端来说是透明的，客户端的角度看来只是读一个持续不断的流。
如果第一批block都读完了，DFSInputStream就会去ＮＮ拿下一批blocks的location，然后继续读，如果所有的块都读完，Client调用FSDataInputStream.close()方法,关闭输入流。

注意：

如果在读数据的时候，DFSInputStream和ＤＮ的通讯发生异常，就会尝试正在读的block的排第二近的ＤＮ,并且会记录哪个ＤＮ发生错误，剩余的blocks读的时候就会直接跳过该ＤＮ。DFSInputStream也会检查block数据校验，如果发现一个坏的block,就会先报告到ＮＮ节点，然后DFSInputStream在其他的ＤＮ上读该block的镜像。
该设计的方向就是客户端直接连接ＤＮ来检索数据并且ＮＤ来负责为每一个block提供最优的ＤＮ，ＮＤ仅仅处理block location的请求，这些信息都加载在ND的内存中，HDFS通过DN集群可以承受大量客户端的并发访问。

HDFS文件写流程：

客户端通过调用DistributedFileSystem的create方法创建新文件。
DistributedFileSystem通过RPC调用ND去创建一个没有blocks关联的新文件，创建前，ND会做各种校验，比如文件是否存在，客户端有无权限去创建等。如果校验通过，ND就会记录下新文件，否则就会抛出IO异常。
前两步结束后会返回FSDataOutputStream的对象，与读文件的时候相似，FSDataOutputStream被封装成DFSOutputStream，他可以协调NN和DN。客户端开始写数据到DFSOutputStream，DFSOutputStream会把数据切成一个个小packet，然后排成队列data quene。
DataStreamer会去处理接受data quene，他先问询ND这个新的block最适合存储的在哪几个DN里（参考第二小节），比如重复数是3，那么就找到3个最适合的DN，把他们排成一个pipeline，DataStreamer把packet按队列输出到管道的第一个DN中，第一个DN又把packet输出到第二个ND中，以此类推。
DFSOutputStream还有一个对列叫ack quene，也是由packet组成，等待DN的收到响应，当pipeline中的所有DN都表示已经收到的时候，这时akc quene才会把对应的packet包移除掉。
客户端完成写数据后调用close方法关闭写入流。
DataStreamer把剩余得包都刷到pipeline里然后等待ack信息，收到最后一个ack后，Client调用FSDataOutputStream.close()方法,关闭输出流，flush缓存区的数据包。
调用FileSystem.complete()方法,告诉NN节点写入成功。

注意：
如果在写的过程中某个datanode发生错误，会采取以下几步：
1) pipeline被关闭掉
2)为了防止防止丢包ack quene里的packet会同步到data quene里
3)把产生错误的datanode上当前在写但未完成的block删掉
4）block剩下的部分被写到剩下的两个正常的datanode中
5）NN找到另外的DN去创建这个块的复制。当然，这些操作对客户端来说是无感知的。
　　另外要注意得一点，客户端执行write操作后，写完得block才是可见的，正在写的block对客户端是不可见的，只有调用sync方法，客户端才确保该文件被写操作已经全部完成，当客户端调用close方法时会默认调用sync方法。是否需要手动调用取决你根据程序需要在数据健壮性和吞吐率之间的权衡。

olino

公告