HDFS存储小文件的危害以及解决小文件问题的方法

HDFS存储小文件的危害以及解决小文件问题的方法:

危害:

  •   如果有大量的小文件的存在,存放的文件数目过多的话会占用很大的内存,甚至撑爆内存。
  •   hdfs使用于高吞吐量,不适合低时间延迟的访问,如果同时存入大量的小文件会花费很长的使时间。hive后者spark计算的时候会影响他们的速度。
  •   访问小文件,则必须从一个datanode跳转到另一个datanode,这样大大降低了读取性能。

 

解决方案:

  1.   生产上设置小文件的阈值,到达阈值就对小文件进行合并。
  2.   多Master设计,让元数据散存到不同的NameNode中。
posted @ 2022-12-04 15:39  不想emo的小李  阅读(523)  评论(0)    收藏  举报