摘要:
hive 优化 1、需要计算的指标真的需要从数据仓库的公共明细自行汇总吗?2、真的需要扫描那么多的分区么?3、尽量不要使用 select * from table这样的方式4、输入文件不要是大量的小文件 group by引起的倾斜优化: R:group by引起的倾斜主要是输入数据行按照group 阅读全文
posted @ 2020-03-25 18:20
1101011
阅读(194)
评论(0)
推荐(0)
摘要:
HSql [Group by] 语句 执行阶段: 输入文件->输入分片->Map阶段->Combiner阶段->Shuffle阶段->Reduce阶段->输出文件 1) 输入文件 2) 输入分片阶段: split数量由文件大小决定,不同版本split大小不同。hadoop1.x 是64MB, had 阅读全文
posted @ 2020-03-25 16:16
1101011
阅读(145)
评论(0)
推荐(0)

浙公网安备 33010602011771号