摘要: ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序,这意味着所有的数据会传送到一个Reduce任务上,这样会导致在大数量的情况下,花费大量时间。 与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下 阅读全文
posted @ 2016-10-27 16:04 大葱拌豆腐 阅读(8275) 评论(0) 推荐(0)
摘要: 写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出 现在学了Hive,写sql大家都很熟悉,如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗? 事实上,hive使用order by会默认设置reduce的个数=1,既然reducer的 阅读全文
posted @ 2016-10-27 15:52 大葱拌豆腐 阅读(877) 评论(0) 推荐(0)
摘要: 同一条语句之中,如果同时有group by和distinct语句,是先group by后distinct,还是先distinct后group by呢? 先说结论:先group by后distinct。 以下是在Hive中的验证: 1)建表:其中xxx替换为本地目录名 2)从tmp_tb文件中导入数据 阅读全文
posted @ 2016-10-27 15:26 大葱拌豆腐 阅读(3542) 评论(1) 推荐(0)
摘要: 当选择两个字段时,例如:"select XX1, XX2 from tb; ",那么将distinct放在前一个字段XX1之前和放在后一个字段XX2之前,结果有什么不同呢? 先说结论:如果将distinct放在前一个字段之前,则会返回对两个字段的组合去重后的结果;而如果将distinct放在后一个字 阅读全文
posted @ 2016-10-27 15:22 大葱拌豆腐 阅读(3026) 评论(0) 推荐(1)