2016年4月8日

摘要: 多表联合查询时候,小表尽量放左边,因为hive会把最后一个当做大文件放磁盘扫描,把前面的尽量放入内存; Sort by 与 order by的区别是 sort by 只是reduce 范围内的排序,而order by 是全局排序,可以利用 distribute by 和 sort by 提高效率, 阅读全文
posted @ 2016-04-08 12:19 不忘初衷,方能致远 阅读(333) 评论(0) 推荐(0)
摘要: map-reduce 驱动需要消耗大量资源,也费时间。 对于简单查询,hive可以回避使用map-reduce,改用fetch task --hiveconf set hive.fetch.task.conversion=more; 那么对于select * from tab 这种就会很快。 如果有 阅读全文
posted @ 2016-04-08 11:22 不忘初衷,方能致远 阅读(207) 评论(0) 推荐(0)

导航