HDFS

简介

定义：

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

优点：

缺点:

不适合低延时的数据访问，比如毫秒级的数据存储
对大量小文件进行存储很低效
- 存储大量的小文件，会占用NameNode大量的内存来存储文件目录和块信息，但NameNode的内存是有限的
- 小文件的寻址时间会超出读取时间，违反了HDFS的设计目标
不支持并发写入、文件的随机修改
- 一个文件只能有一个写，不允许多个线程同时写
- 仅支持数据append，不支持文件的svjixqg

HDFS块的大小设置主要取决于磁盘传输速度

客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
NameNode返回是否可以上传。
客户端请求第一个 Block上传到哪几个DataNode服务器上。
NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成
dn1、dn2、dn3逐级应答客户端。
客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答
当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）

在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据

节点距离：两个节点到达最近的共同祖先的距离总和。

可以理解为二叉树最近的公共祖先

posted @ 2022-01-19 16:51 Zhbeii 阅读(104) 评论(0) 收藏举报

刷新页面返回顶部