HDFS产生小文件解决

使用flume将数据写到HDFS上,出现大量的不到1kb的小文件。

 

 

危害:占用NameNode内存   n*150字节  (采用har归档:hadoop archive -archiveName  **.har -p  /输入路径  /输出路径)

    增加切片个数  n个maptask

 

产生原因:

                  hdfs.rollInterval  30  默认30s产生下一个文件        (优化配置:3600s)

     或

     hdfs.rollSize 1024    默认1024节大小产生一个文件      (优化配置:134217728)

     或

     hdfs.rollCount  10     默认10条一个文件        (优化配置:0 【禁止】)

 

 

posted @ 2021-08-18 15:32  海飏凨  阅读(374)  评论(0编辑  收藏  举报