hive 排序 order by sort by distribute by cluster by

order by：

order by是全局排序，受hive.mapred.mode的影响。

使用orderby有一些限制：

1、在严格模式下（hive.mapred.mode=strict），orderby必须跟limit一起使用（？）。

原因：在执行orderby时，hive使用一个reducer，如果查询结果量很大，这个reducer执行起来会很费劲，所以必须要限制查询输出结果的数量。

limit n 之后，reducer处理的数据有n * count(map)条数据。

2、在非严格模式下（默认，hive.mapred.mode=nonstrict），orderby可以不跟limit一起使用。

对每个reducer里的数据进行排序，如果有多个reducer执行查询，则查询出来的数据是部分排序的。。

也可以使用limit n来减少reducer处理的数据量。

hive执行查询时，在mr的分区结果根据distributeby的字段进行分区，这样相同字段的数据由同一个reducer处理。

clusterby是distributeby和sortby的快捷方式，根据clusterby字段进行分区并排序。

例子

某一列的数据如下：

对这个字段distributeby后，

reducer1里的数据是：

reducer2里的数据是：

说明：同一个值（x1）交由同一个reducer处理，数据也是有序的。

posted @ 2015-06-08 12:37 lishouguang 阅读(477) 评论(0) 收藏举报

刷新页面返回顶部