随笔分类 -  Hive

摘要:UDF全称: user defined function 用户定义函数 存在的意义: 比如你需要使用hive的函数来处理一些记录,像count(), sum()这都是内置的,写好的,如果我想自定义一些函数,就可以写UDF来完成,相当于在Hive的sql中自定义了一些函数 UDF必须使用java编写, 阅读全文
posted @ 2018-07-12 10:59 雪山过客 阅读(524) 评论(0) 推荐(0)
摘要:取每个用户最喜欢购买的前三个product 结果输出 把每个用户的前三条记录输出为一行, 列转行 结果如下 参考: https://blog.csdn.net/doveyoung8/article/details/80022579 阅读全文
posted @ 2018-07-10 17:39 雪山过客 阅读(9883) 评论(0) 推荐(0)
摘要:转载: http://blog.sina.com.cn/s/blog_9f48885501017dua.html 阅读全文
posted @ 2018-07-10 11:05 雪山过客 阅读(912) 评论(0) 推荐(0)
摘要:列转行 测试数据 把相同user_id的order_id按照逗号转为一行 总结 使用函数:concat_ws(',',collect_set(column)) 说明:collect_list 不去重,collect_set 去重。 column的数据类型要求是string 行转列 测试数据 将ord 阅读全文
posted @ 2018-07-06 17:31 雪山过客 阅读(107880) 评论(2) 推荐(3)
摘要:Hive分区表 1. 说明 分区表的一个分区对应hdfs上的一个目录 分区表包括静态分区表和动态分区表,根据分区会不会自动创建来区分 多级分区表,即创建的时候指定 PARTITIONED BY (event_month string,loc string),根据顺序,级联创建 event_mont 阅读全文
posted @ 2018-07-05 17:20 雪山过客 阅读(1952) 评论(0) 推荐(0)
摘要:Hive-SQL练习 通过hive统计一篇文章中WordCount 1. hive创建内部表wc 2. 向wc表中导入hdfs文章的内容 3. 统计词频 4. 知识点  阅读全文
posted @ 2018-07-05 16:30 雪山过客 阅读(1906) 评论(0) 推荐(0)
摘要:1. Hive分桶表 简介 桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织,对列值哈希,然后除以桶的个数求余,决定将该条记录存放到哪个桶中。 获得更高的查询处理效果 抽样调查 创建分桶表 添加数据前需要先开启分桶 导入数据 查询数据 阅读全文
posted @ 2018-06-19 12:02 雪山过客 阅读(3047) 评论(0) 推荐(0)