随笔分类 - HIVE
总结distinct、group by 、row_number()over函数用法及区别
摘要:distinct和group by 是一样的,查询去重,只能是全部重复的,也可以理解为针对单例,因为一行有一个字段不一样,他们就会认为这两行内容是不重复的。但是使用row_number()over这个函数就可以针对全部字段,完全重复还是部分重复都可以通过这个函数查找出来,因为它自身有分组的功能。以下
阅读全文
hive小优化(一)
摘要:/*+streamtable(s)*/这个标志在进行多表关联操作时候加进去,会达到显式提醒hive哪一个是大表,虽然你把大表放在最前面,虽然hive是从左往右执行,加上这个标志就会起到优化效果,数据量大的时候务必要做些优化,因为数据处理在效率方面也是不可或缺的一部分。 例子:SELECT /*+st
阅读全文
浙公网安备 33010602011771号