随笔分类 -  hive

摘要:UDF :user define function 用户自定义函数 一行输入,一行输出 定义Java类并实现org.apache.hadoop.hive.ql.exec.UDF——>覆写evaluate 需求: 将字符串类型的数据 2012-12-31 14:37:36 转换为 2012/12/31 阅读全文
posted @ 2020-06-26 16:29 bioamin 阅读(224) 评论(0) 推荐(0)
摘要:1、查看数据 $ head orders.csv order_id,user_id,eval_set,order_number,order_dow,order_hour_of_day,days_since_prior_order 2539329,1,prior,1,2,08, 2398795,1,p 阅读全文
posted @ 2020-05-04 10:58 bioamin 阅读(437) 评论(0) 推荐(0)
摘要:#!/bin/bash date1="20080101" date2="20080401" enddate="20200501" while [ "$date1" -le "$enddate" ]; do yesterday=`date -d "$date1" +%Y-%m-%d` today=`d 阅读全文
posted @ 2020-04-16 21:51 bioamin 阅读(1379) 评论(0) 推荐(0)
摘要:操作系统:CentOS Linux release 7.4.1708 (Core) 研发环境 软件环境:cdh5.15.1 记录时间:20190729 修改hive的配置参数,使其支持行级insert、update、delete操作 服务端: hive-site.xml 的 Hive 服务高级配置代 阅读全文
posted @ 2019-07-30 10:34 bioamin 阅读(886) 评论(0) 推荐(0)
摘要:迁移背景: 1、hive有30多个库,最大的库有100多张表,这中情况下必须采用 脚本式 迁移 2、2个hive版本不一致,元数据mysql表结构不一致,不能采用mysql数据库覆盖方式 3、hive数据仓库只迁移一部分,另外一部分后续迁移,不能采用mysql数据库覆盖方式 4. 2个集群暂时未开启 阅读全文
posted @ 2019-07-24 10:50 bioamin 阅读(596) 评论(0) 推荐(0)
摘要:本博客参照github上的案例进行学习记录 github地址:https://github.com/ljcan/Hive_Project #下载数据集wget http://files.grouplens.org/datasets/movielens/ml-100k.zip unzip ml-100 阅读全文
posted @ 2019-06-04 10:33 bioamin 阅读(1195) 评论(0) 推荐(0)
摘要:题目1:计算用户发过多少朋友圈、获得多少点赞 用你擅长的语言计算,数据如下: T1:10w行数据 uid(用户id) log_id(日记id) uid1 log_id1 uid1 log_id2 uid2 log_id3 ... ... T2:1000w行数据,注:没有被点赞的日记不记录 log_i 阅读全文
posted @ 2019-05-31 20:27 bioamin 阅读(550) 评论(0) 推荐(0)
摘要:hive的写法和sql类似,却又有一点不一样,本次采用模拟数据编写hql统计访问次数: 求出当月的访问次数,截至当月前的每个月最大访问次数、截至当月前每个用户总的访问次数。 数据表如下 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-0 阅读全文
posted @ 2019-05-31 00:13 bioamin 阅读(1334) 评论(0) 推荐(0)
摘要:cloudera公司发行的CDH中 hive的有三种角色:gateway、hiveserver2、hive metastore三种角色其中hive metastore主要用于客户端连接 默认端口hive server2 主要用于jdbc连接(很多bi产品都靠jdbc连接,比如hue,帆软等软件)ga 阅读全文
posted @ 2019-05-31 00:09 bioamin 阅读(772) 评论(0) 推荐(0)
摘要:基础每天学习: 1.行转列: case ... when ...then....else ...end as xxx 2. “fields terminated by”:字段与字段之间的分隔符。“collection items terminated by”:一个字段中各个子元素 item 的分隔符 阅读全文
posted @ 2019-05-30 23:33 bioamin 阅读(252) 评论(0) 推荐(0)
摘要:hive练习第6天 1.hive基础:order by,sort by,distribute by,cluster by order by 全局排序 所有的map结果提交至一个reduce里,如果在严格模式下,order by 需要指定 limit 数据条数,不然数据量巨大的情况下 会造成崩溃无输出 阅读全文
posted @ 2019-05-30 23:15 bioamin 阅读(642) 评论(1) 推荐(0)