随笔分类 -  HIVE

总结distinct、group by 、row_number()over函数用法及区别
摘要:distinct和group by 是一样的,查询去重,只能是全部重复的,也可以理解为针对单例,因为一行有一个字段不一样,他们就会认为这两行内容是不重复的。但是使用row_number()over这个函数就可以针对全部字段,完全重复还是部分重复都可以通过这个函数查找出来,因为它自身有分组的功能。以下 阅读全文
posted @ 2019-02-22 16:55 天下熙攘皆为利往 阅读(4191) 评论(1) 推荐(0)
hive小优化(一)
摘要:/*+streamtable(s)*/这个标志在进行多表关联操作时候加进去,会达到显式提醒hive哪一个是大表,虽然你把大表放在最前面,虽然hive是从左往右执行,加上这个标志就会起到优化效果,数据量大的时候务必要做些优化,因为数据处理在效率方面也是不可或缺的一部分。 例子:SELECT /*+st 阅读全文
posted @ 2019-01-17 15:24 天下熙攘皆为利往 阅读(604) 评论(0) 推荐(0)