Hive - 随笔分类 - 雪山过客

Hive之UDF解释

摘要：UDF全称: user defined function 用户定义函数存在的意义: 比如你需要使用hive的函数来处理一些记录,像count(), sum()这都是内置的,写好的,如果我想自定义一些函数,就可以写UDF来完成,相当于在Hive的sql中自定义了一些函数 UDF必须使用java编写, 阅读全文

posted @ 2018-07-12 10:59 雪山过客阅读(524) 评论(0) 推荐(0)

Hive之分组取前几条记录

摘要：取每个用户最喜欢购买的前三个product 结果输出把每个用户的前三条记录输出为一行, 列转行结果如下参考: https://blog.csdn.net/doveyoung8/article/details/80022579 阅读全文

posted @ 2018-07-10 17:39 雪山过客阅读(9883) 评论(0) 推荐(0)

Hive之Map和Reduce的优化

摘要：转载: http://blog.sina.com.cn/s/blog_9f48885501017dua.html 阅读全文

posted @ 2018-07-10 11:05 雪山过客阅读(912) 评论(0) 推荐(0)

Hive之列转行,行转列

摘要：列转行测试数据把相同user_id的order_id按照逗号转为一行总结使用函数：concat_ws(',',collect_set(column)) 说明：collect_list 不去重，collect_set 去重。 column的数据类型要求是string 行转列测试数据将ord 阅读全文

posted @ 2018-07-06 17:31 雪山过客阅读(107880) 评论(2) 推荐(3)

Hive之分区表

摘要：Hive分区表 1. 说明分区表的一个分区对应hdfs上的一个目录分区表包括静态分区表和动态分区表，根据分区会不会自动创建来区分多级分区表，即创建的时候指定 PARTITIONED BY (event_month string,loc string)，根据顺序，级联创建 event_mont 阅读全文

posted @ 2018-07-05 17:20 雪山过客阅读(1952) 评论(0) 推荐(0)

Hive之WordCount

摘要：Hive-SQL练习通过hive统计一篇文章中WordCount 1. hive创建内部表wc 2. 向wc表中导入hdfs文章的内容 3. 统计词频 4. 知识点阅读全文

posted @ 2018-07-05 16:30 雪山过客阅读(1906) 评论(0) 推荐(0)

Hive之分桶表

摘要：1. Hive分桶表简介桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织，对列值哈希，然后除以桶的个数求余，决定将该条记录存放到哪个桶中。获得更高的查询处理效果抽样调查创建分桶表添加数据前需要先开启分桶导入数据查询数据阅读全文

posted @ 2018-06-19 12:02 雪山过客阅读(3047) 评论(0) 推荐(0)

雪山过客

“懒”是你现在的状态吗？

随笔分类 - Hive

公告