摘要: hive 优化 1、需要计算的指标真的需要从数据仓库的公共明细自行汇总吗?2、真的需要扫描那么多的分区么?3、尽量不要使用 select * from table这样的方式4、输入文件不要是大量的小文件 group by引起的倾斜优化: R:group by引起的倾斜主要是输入数据行按照group 阅读全文
posted @ 2020-03-25 18:20 1101011 阅读(194) 评论(0) 推荐(0)
摘要: HSql [Group by] 语句 执行阶段: 输入文件->输入分片->Map阶段->Combiner阶段->Shuffle阶段->Reduce阶段->输出文件 1) 输入文件 2) 输入分片阶段: split数量由文件大小决定,不同版本split大小不同。hadoop1.x 是64MB, had 阅读全文
posted @ 2020-03-25 16:16 1101011 阅读(145) 评论(0) 推荐(0)