大数据Hadoop学习三

HDFS的存储原理

存储原理

分布式文件存储（每个服务器或者说节点存储文件的一部分）
将文件划分为几个部分，分别存入对应的几个服务器
多个文件也同理
问题：文件大小不一致，不利于同一管理
解决：设定统一的管理单位,block块（HDFS最小存储单位，每个256MB可以修改大小）
问题：如果block块丢失或者损坏了某个Block块呢？(块越多，损坏的几率就越大)
解决：通过多个副本（备份）解决，每个Block块都有两个（可修改）备份，每个副本都复制到其他服务器一份

fsck命令(files sysytem check)

如何配置HDFS数据块的副本数量

在hdfs-site.xml中配置如下属性：

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

以上的这个属性默认是3（三份数据文件），一般情况下，我们无需主动配置
如果需要自定义就要修啊给i每一台服务器的hdfs-site.xml文件，并设置此属性（集群需要重启）
·除了配置文件外，我们还可以在上传文件的时候，临时决定被上传文件以多少个副本存储。

hadoop fs -D dfs.replication=2 -put test.txt /tmp/

如上命令，就可以在上传test.txt的时候，临时设置其副本数为2

·对于已经存在HDFS的文件，修改dfs.replication属性不会生效，如果要修改已存在文件可以通过命令

hadoop fs -setrep [-R] 2 path

如上命令，指定path的内容将会被修改为2个副本存储。
-R选项可选，使用-R表示对子目录也生效。

fsck命令检查文件的副本数

hdfs fsck path [-files [-blocks [-locations]]]

fsck可以检查指定路径是否正常
-files可以列出路径内的文件状态
-files -blocks输出文件块报告（有几个块，多少副本)
-files -blocks -locations输出每一个block的详情

两个副本，放在两个服务器上

block配置

对于块(block),hdfs默认设置为256MB一个，也就是1GB文件会被划分为4个block存储。
块大小可以通过参数：

<property>
  <name>dfs.blocksize</name>
  <va1ue>268435456</va1ue>
  <description>设置HDFS块大小，单位是b</description>
</property>

如上，设置为256MB

NameNode元数据

掌握NameNode是如何管理Block块的

edits文件

edits文件（是一个流水账文件，记录hdfs中的每一次操作，以及本次操作影响的文件其对应的block，不是最终状态）
Hadoop通过NameNode记录和整理文件和block块的关系
NameNode基于一批edits和一个fsimage文件的配合完成整个文件系统的管理和维护

edits记录每一次HDFS的操作逐渐变得越来越大，所以为了确保不会有超大edits的存在同时保证检索性能，会存在多个edits文件
问题在于，当用户想要查看某文件内容
如：/tmp/data/test.txt
就需要在全部的edits中搜索
(还需要按顺序从头到尾，避免后期改名或删除)
效率非常低
解决以上问题需要合并edits文件，得到最终的结果

fsimage文件

将全部的edits文件，合并为最终结果，即可得到一个FSImage文件

NameNode元数据管理维护

NameNode基于edits和FSImage的配合，完成整个文件系统文件的管理
1.每次对HDFS的操作，均被edits文件记录
2.edits:达到大小上线后，开启新的edits记录
3.定期进行edits的合并操作
如当前没有fsimage文件，将全部edits合并为第一个fsimage
如当前已存在fsimage文件，将全部edits和已存在的fsimage进行合并，形成新的fsimage
4.重复123流程。
两类文件

元数据合并控制参数

对于元数据的合并，是一个定时过程，基于：
dfs.namenode.checkpoint.period,默认3600（秒）即1小时
dfs.namenode.checkpoint..txns,默认1000000，即100W次事务
只要有一个达到条件就执行。
检查是否达到条件，默认60秒检查一次，基于：
dfs.namenode.checkpoint..check.period,默认60（秒)，来决定

SecondaryNameNode的作用

用来合并元数据
SecondaryNameNode会通过http从NameNode拉取数据(edits和fsimage)
NameNode只会写edits
然后合并完成后提供给NameNode使用。

HDFS数据的读写流程

理解客户端在HDFS上读、写数据的流程

数据写入流程

1.客户端向NameNode发起请求
2.NameNode审核权限、剩余空间后，满足条件允许写入，并告知客户
端写入的DataNode地址
3.客户端向指定的DataNode发送数据包
4.被写入数据的DataNode同时完成数据副本的复制工作，将其接收的数
据分发给其它DataNode
5.如上图，DataNode1复制给DataNode2,然后基于DataNode2复制给
Datanode3和DataNode4
6.写入完成客户端通知NameNode,NameNode做元数据记录工作
关键信息点：
NameNode.不负责数据写入，只负责元数据记录和权限审批
客户端直接向1台DataNode写数据，这个DataNode一般是离客户端
最近（网络距离）的那一个
数据块副本的复制工作，由DataNode之间自行完成（构建一个
PipLine,按顺序复制分发，如图1给2,2给3和4)

数据读取流程

1、客户端向NameNode申请读取某文件
2、NameNode判断客户端权限等细节后，允许读取，并返回此文件的olock列表
3、客户端拿到block列表后自行寻找DataNode读取即可
关键点：
l、数据同样不通过NameNode提供
2、NameNode提供的block列表，会基于网络距离计算尽量
提供离客户端最近的
这是因为1个b1ock有3份，会尽量找离客户端最近的那
份让其读取

总结

主要就是理解存储和读写数据的原理和基本操作

posted @ 2025-08-09 20:18 haoyinuo 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

haoyinuo