Hive配置文件级别优化

1.hive.merge.mapfiles=true //是否合并Map端输出文件
2.hive.merge.mapredfiles=false //是否合并Map/Reduce端输出文件
3.hive.merge.size.per.task=256000000 //输出文件合并大小
4.hive.merge.smallfiles.avgsize=16000000 //如果输出文件大小平均值小于该值,开启输出文件合并
5.mapred.reduce.tasks //reduce任务的个数,如果没有设置,将会时候以下两个参数进行估算
6.hive.exec.reducers.bytes.per.reducer=1000000000 //每个reduce任务处理的数据量
7.hive.exec.reduces.max=999 //每个任务最大的reduce数
估算方法:reduce个数=min(文件总大小/参数6,参数7)
8.mapreduce.job.jvm.numtasks=1 //一个jvm里面运行多少个task,-1没有限制
9.hive.exec.parallel=false //是否允许多个job并行执行
10.hive.exec.parallel.thread.number=8 //最多允许job并行执行个数
11.hive.map.aggr=true //是否在Map端进行聚合
12.hive.groupby.skewindata=true //数据倾斜聚合优化,生成两个MR JOb,第一个Job实现负载均衡,第二个Job完成聚合操作

posted @ 2020-06-10 17:58  JoshWill  阅读(205)  评论(0)    收藏  举报