Hive配置文件级别优化

1.hive.merge.mapfiles=true //是否合并Map端输出文件
2.hive.merge.mapredfiles=false //是否合并Map/Reduce端输出文件
3.hive.merge.size.per.task=256000000 //输出文件合并大小
4.hive.merge.smallfiles.avgsize=16000000 //如果输出文件大小平均值小于该值，开启输出文件合并
5.mapred.reduce.tasks //reduce任务的个数，如果没有设置，将会时候以下两个参数进行估算
6.hive.exec.reducers.bytes.per.reducer=1000000000 //每个reduce任务处理的数据量
7.hive.exec.reduces.max=999 //每个任务最大的reduce数
估算方法：reduce个数=min(文件总大小/参数6，参数7)
8.mapreduce.job.jvm.numtasks=1 //一个jvm里面运行多少个task,-1没有限制
9.hive.exec.parallel=false //是否允许多个job并行执行
10.hive.exec.parallel.thread.number=8 //最多允许job并行执行个数
11.hive.map.aggr=true //是否在Map端进行聚合
12.hive.groupby.skewindata=true //数据倾斜聚合优化，生成两个MR JOb，第一个Job实现负载均衡，第二个Job完成聚合操作

posted @ 2020-06-10 17:58 JoshWill 阅读(210) 评论(0) 收藏举报

刷新页面返回顶部

JoshWill

Hive配置文件级别优化

公告