1、采用har归档,将小文件归并为har文件
2、采用CombineTextInputFormat
3、开启jvm:没有小文件的时候不要开启,因为jvm会一直占据的task,知道任务结束才释放,浪费资源