第四次作业

1.用图文与自己的话，简要描述Hadoop起源与发展阶段

Hadoop的起源

2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。
2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
2006年2月被分离出来，成为一套完整独立的软件，起名为Hadoop
Hadoop名字不是一个缩写，而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具象命名的。
Hadoop的成长过程
Lucene–>Nutch—>Hadoop

2.用图与自己的话，简要描述名称节点，第二名称节点，数据节点的主要功能及相互关系。

NameNode：名称节点

（1）职责：

管理、维护HDFS；
接收客户端的请求：上传、下载、创建目录等；
维护两个非常重要的文件：edits文件 –> 记录了操作日志；fsimage文件 –> 记录HDFS元信息
（2）HDFS操作日志：edits文件

位置：find . -name edits* (在当前目录下查找以edits打头的文件)

最新的操作日志以edits_inprogress***开头

记录：Edits文件保存了自最后一次检查点之后所有针对HDFS文件系统的操作，比如：增加文件、重命名文件、删除目录等等

（3）DataNode

DataNode运行在slave节点上，也称为工作节点。它负责存储数据块，也负责为Client端提供读写服务，同时还接收NameNode指令，进行创建、删除和复制等操作。DataNode还通过心跳机制定期向NameNode发送所存储文件块列表信息。并且DataNode还和其他DataNode节点通信，复制数据块已达到冗余的目的。

（4）SecondaryNameNode

NameNode元数据信息存储在FsImage中，NameNode每次重启后会把FsImage读取到内存中，在运行过程中为了防止数据丢失，NameNode的操作会被不断的写入本地EditLog文件中。

当检查点被触发，FsImage会把EditLog文件中的操作应用一遍，然后把新版的FsImage写回磁盘中，删除EditLog文件中旧的事务信息。检查点有两种触发机制：（1）按秒为单位的时间间隔触发（dfs.namenode.checkpoint.period）；（2）达到文件系统累加的事务值触发（dfs.namenode.checkpoint.txns）。

相互关系:

1. SencodaryNameNode也是在一定条件下才会触发checkpoint（合并）操作，将文件的元数据加载合并，重新传递到namenode节点

2. SecondaryNameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。

2. DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。

3. 心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。

三：分别从以下这些方面，梳理清楚HDFS的结构与运行流程，以图的形式描述。

客户端与HDFS
客户端读
客户端写
数据结点与集群
数据结点与名称结点
名称结点与第二名称结点
数据结点与数据结点
数据冗余
数据存取策略
数据错误与恢复
5.理解并描述Hbase表与Region与HDFS的关系。
在Hbase中存在一张特殊的meta表,其中存放着HBase的元数据信息,包括,有哪些表,表有哪些HRegion,每个HRegion分布在哪个HRegionServer中。meta表很特殊，永远有且仅有一个HRegion存储meta表，这个HRegion存放在某一个HRegionServer中，并且会将这个持有meta表的Region的HRegionServer的地址存放在Zookeeper中meta-region-server下。
所以当在进行HBase表的读写操作时，需要先根据表名和行键确定位到HRegion，这个过程就是HRegion的寻址过程。
HRgion的寻址过程首先由客户端开始，访问zookeeper 得到其中meta-region-server的值,根据该值找到唯一持有meta表的HRegion所在的HRegionServer,得到meta表,从中读取真正要查询的表和行键对应的HRgion的地址,再根据该地址,找到真正的操作的HRegionServer和HRegion,完成HRgion的定位,继续读写操作.

6.理解并描述Hbase的三级寻址。

现在假设我们要从Table2里面查询一条RowKey是RK10000的数据。那么我们应该遵循以下步骤：
1. 从.META.表里面查询哪个Region包含这条数据。
2. 获取管理这个Region的RegionServer地址。
3. 连接这个RegionServer, 查到这条数据。

7.假设.META.表的每行（一个映射条目）在内存中大约占用1KB，并且每个Region限制为2GB，通过HBase的三级寻址方式，理论上Hbase的数据表最大有多大？

一个-ROOT-表最多只能有一个Region，也就是最多只能有2GB，按照每行（一个映射条目）占用1KB内存计算，2GB空间可以容纳2GB/1KB=2的21次方行，也就是说，一个-ROOT-表可以寻址2的21次方个.META.表的Region。同理，每个.META.表的 Region可以寻址的用户数据表的Region个数是2GB/1KB=2的21次方。最终，三层结构可以保存的Region数目是(2GB/1KB) × (2GB/1KB) = 2的42次方个Region

posted @ 2021-11-22 21:17 Saints# 阅读(31) 评论(0) 收藏举报

刷新页面返回顶部