摘要:
优化的核心在于 处理大数据量 与 hive执行过程原理 1. 用where过滤分区,可以减小数据量 可以使用嵌套select查询,先用where过滤分区,再进行表连接,这对所有种类的表连接都是可以的。 2. 左半开连接 可以代替in,速度会比较快。 SEMI JOIN 3. map side JOI 阅读全文
posted @ 2016-05-12 11:41
书影悦黄昏
阅读(984)
评论(0)
推荐(0)
摘要:
关于Hive编程指南学习问题集 1. Hive的外部分区表修改数据是否会改变文件?比如添加分区,比如,导入新数据 2. where 与 on Java处理原理是什么?这个有利于优化 阅读全文
posted @ 2016-05-12 10:48
书影悦黄昏
阅读(135)
评论(0)
推荐(0)
浙公网安备 33010602011771号