hive中四个BY区别

order by:全局排序,只有一个reduce

sort by:分区内排序

Distrbute By:相当于mr中的partition,进行分区,结合sort by使用。

Cluster By:当Distribute bySorts by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序,不能指定排序规则为ASC或者DESC

在生产环境中Order By用的比较少,容易导致OOM

在生产环境中Sort By+ Distrbute By用的多。

posted @ 2021-08-07 15:19  weiweidetiandi  阅读(594)  评论(0)    收藏  举报