2020 年 3月 25 日随笔档案 - 1101011

2020年3月25日

摘要： hive 优化 1、需要计算的指标真的需要从数据仓库的公共明细自行汇总吗？2、真的需要扫描那么多的分区么？3、尽量不要使用 select * from table这样的方式4、输入文件不要是大量的小文件 group by引起的倾斜优化: R:group by引起的倾斜主要是输入数据行按照group 阅读全文

posted @ 2020-03-25 18:20 1101011 阅读(194) 评论(0) 推荐(0)

MapReduce原理

摘要： HSql [Group by] 语句执行阶段：输入文件->输入分片->Map阶段->Combiner阶段->Shuffle阶段->Reduce阶段->输出文件 1) 输入文件 2) 输入分片阶段： split数量由文件大小决定，不同版本split大小不同。hadoop1.x 是64MB, had 阅读全文

posted @ 2020-03-25 16:16 1101011 阅读(145) 评论(0) 推荐(0)

1101011

公告