hive优化

1、mapjion

2、行列过滤

3、列式存储

4、采用分区技术

5、合理设置map个数

6、合理设置reduce个数

7、map端提前combiner

8、小文件产生:

  动态分区导致的

  reduce端生成的

  数据源本身就有小文件

解决:

  在Map执行前合并小文件,减少Map数:CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。HiveInputFormat没有对小文件合并功能。

  merge

  groupby代替distinct

posted @ 2021-08-07 17:15  weiweidetiandi  阅读(38)  评论(0)    收藏  举报