摘要: Spark读取HDFS目录,若该目录下存在大量小文件时,每个文件都会生成一个Task,当存在大量任务时,可能存在性能不足的问题,可以使用CombineTextInputFormat类代替TextInputFormat类进行优化,同时配合使用hadoop参数mapreduce.input.filein 阅读全文
posted @ 2022-03-27 15:17 远去的列车 阅读(671) 评论(0) 推荐(0) 编辑