Hadoop：HDFS 读写数据流程及优缺点

一、HDFS 写数据流程

客户端想 NameNode 发出请求（包含 Blocksize 和副本数）；
NameNode 经过计算，反馈给客户端相同副本数的 DataNode，切给出的 DataNode 有优先存储顺序要求；（数据与 DataNode 对应时，一般移动计算，不移动数据）
客户端得到信息后开始写数据，当第一个 DataNode 接受 Block 时，会将该数据传给第二个 DataNode ，第二个 DataNode 接受到数据时，也会将该数据传递给第三个 DataNode；在最后一个 DataNode 接受数据完毕时，则该 Block 全部传输完毕；
DataNode 在接受数据完毕后，每一个 DataNode 都会将完毕信息传递给 NameNode；
NameNode 将所有 DataNode 反馈的信息（所有数据以传输完毕），反馈给客户端；
客户端接受到 NamaNode 反馈的信息后（第一个 Block 传输完毕），开始发送请求传输第二个 Block；
传输完毕后，在关闭请求之前，NameNode 将该文件所有 Block 存放在 DataNode 上的 ID 保存在文件中；

低延迟的数据访问；（一般数据较大，不容易实现在秒级别检索数据）
不适合小文件的存储；（无论文件大小，都有对应的元数据存放在 NameNode 上，如果小文件较多，则对应的元数据较多，对应的元数据所占用的内存信息较大，给NameNode 压力较大）

posted @ 2019-09-02 15:04 何永灿阅读(1313) 评论(0) 收藏举报

刷新页面返回顶部