暑假第三周总结

本周学习了一些HDFS得相关知识
HDFS概念
HDFS,它是一个分布式文件系统,用于存储文件,通过目录树来定位文件;
HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。
HDFS优缺点
优点:
高容错性
数据自动保存多个副本,可以通过增加副本的方式来提高容错性
副本丢失后可以自动恢复
适合处理大数据
数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;
文件规模:能够处理百万规模以上的文件数量,数量相当之大。
可在廉价机器上通过多副本机制提升可靠性
缺点:
不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。
无法高效的对大量小文件进行存储。
存储大量小文件的话,它会占用NameNode大量的内存来存储文件、目录和块信息。这样是不可取的,因为NameNode的内存总是有限的;
小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
不支持并发写入、文件随机修改。
一个文件只能有一个写,不允许多个线程同时写;
仅支持数据append(追加),不支持文件的随机修改。

 

HDFS文件块大小
概念
HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs. blcoksize)来规定,默认是128M

为什么不能设置太大,也不能设置太小

块设置太小,会增加寻址时间。
快设置太大,从磁盘传输数据的时间会明显大于定位这块开时位置所需的时间。导致程序在处理这块数据时,会非常慢。
总结

块的大小主要取决于磁盘的传输效率

posted @ 2022-07-16 13:19  一个小弱鸡  阅读(14)  评论(0编辑  收藏  举报