随笔分类 -  hive

摘要:一、将hive表数据查询出来转为json对象输出 1、将查询出来的数据转为一行一行,并指定分割符的数据 2、使用UDF函数,将每一行数据作为string传入UDF函数中转换为json再返回 1、准备数据 2、查询出来的数据转为一行一行,并指定分割符的数据 3、准备UDF函数 二、将hive表数据查询 阅读全文
posted @ 2019-08-09 11:11 xiaolaotou 阅读(19309) 评论(0) 推荐(0)
摘要:一、准备jar包:可以去mvn仓库下载 二、 进入hive添加jar 三、准备数据 四、创建与Elasticsearch对接test外部表 创建源数据表test1 hive> load data local inpath '/mnt/test.txt' into table test1;Loadin 阅读全文
posted @ 2019-05-05 18:07 xiaolaotou 阅读(3372) 评论(0) 推荐(0)
摘要:1、日期比较函数:datediff语法:datediff(string enddate,string startdate) 返回值:int 说明:返回结束日期减去开始日期的天数。 例如: 2、日期增加函数:date_add语法:date_add(string startdate, intdays) 阅读全文
posted @ 2019-05-05 16:45 xiaolaotou 阅读(11534) 评论(0) 推荐(0)
摘要:一、时间戳函数 1、获取当前时区的UNIX时间戳:select unix_timestamp(); 2、将指定时间转为UNIX时间戳: select unix_timestamp('2012-03-03 11:45:31'); 3、将指定的实际转为贵UNIX时间戳:select unix_times 阅读全文
posted @ 2019-05-05 15:46 xiaolaotou 阅读(1580) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-04-03 12:08 xiaolaotou 阅读(3) 评论(0) 推荐(0)
摘要:一、数据准备 现准备原始json数据(test.json)如下: 现在将数据导入到hive中,并且最终想要得到这么一个结果: 可以使用:内置函数(get_json_object)或者自定义函数完成 二、get_json_object(string json_string, string path) 阅读全文
posted @ 2019-04-02 18:03 xiaolaotou 阅读(86815) 评论(2) 推荐(4)
该文被密码保护。
posted @ 2019-04-02 17:29 xiaolaotou 阅读(1) 评论(0) 推荐(0)
摘要:文件数目过多,会给HDFS带来压力,并且会影响处理效率,可以通过合并Map和Reduce的结果文件来消除这样的影响: set hive.merge.mapfiles = true ##在 map only 的任务结束时合并小文件 set hive.merge.mapredfiles = false 阅读全文
posted @ 2019-03-29 15:26 xiaolaotou 阅读(7599) 评论(0) 推荐(0)
摘要:一、安装方式(内嵌模式,本地模式远程模式) 安装环境以及前提说明: Hive是依赖于hadoop系统的,因此在运行Hive之前需要保证已经搭建好hadoop集群环境。 本例中使用的hadoop版本为2.6.1,Hive版本为2.1.1版。 1.Hive的3种安装方式: 1)内嵌模式(元数据保存在内嵌 阅读全文
posted @ 2019-03-25 16:20 xiaolaotou 阅读(185) 评论(0) 推荐(0)
摘要:一、相关分析 通常当聚合率和数据量没有大于一定程度时,对于不涉及Rollup、Cube、Grouping_Sets这三种操作的聚合很少出现GC问题。对于Rollup、Cube、Grouping_Sets操作可采用如下优化方法避免GC。 1、Rollup / Cube / Grouping_Sets时 阅读全文
posted @ 2019-03-07 17:53 xiaolaotou 阅读(1264) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-03-05 11:41 xiaolaotou 阅读(4) 评论(0) 推荐(0)
摘要:一、UDF相关概念 UDF,用户自定义函数,可以直接在SQL语句中计算的函数:三个优点: UDF 存放在内存中, 设计不当将导致系统的崩溃, 所以必须在必要的时候实施优化。 对 UDF 的优化是通过手动改写原来的 UDF 代码实现的, 主要有以下两种场景: 1) 如果 UDF 嵌套过于复杂, 可以重 阅读全文
posted @ 2019-03-05 11:34 xiaolaotou 阅读(4275) 评论(0) 推荐(0)
摘要:一、java操作hive 1、启动服务:hiveserver2,让hive开启与外部连接的服务 nohup hiveserver2 1>/dev/null 2>/dev/null &2、加入hive的依赖包 <dependency> <groupId>org.apache.hive</groupId 阅读全文
posted @ 2019-02-22 10:46 xiaolaotou 阅读(3337) 评论(0) 推荐(0)
摘要:一、 选出合理的分桶字段。 可以拿 (字段中重复值最多的记录数/表的总记录数) 的值作为是否可以作为分桶字段的依据。  查询字段中重复值最多的记录数: COL_COUNT=select column1,count(1) cnt from table_name group by column1 or 阅读全文
posted @ 2019-02-21 18:04 xiaolaotou 阅读(4354) 评论(3) 推荐(0)
摘要:实例一:来源: https://www.cnblogs.com/kimbo/p/6208973.html 行转列 (对某列拆分,一列拆多行) 使用函数:lateral view explode(split(column, ',')) num eg: 如表:t_row_to_column_tmp 数据 阅读全文
posted @ 2019-02-21 12:51 xiaolaotou 阅读(2458) 评论(0) 推荐(0)
摘要:一、 分区函数Partition By与row_number()、rank()、dense_rank()的用法(获取分组(分区)中前几条记录) 一、数据准备 --1、创建学生成绩表 id int, --主键 Grade int, --班级 Score int --分数 id int, --主键 Gr 阅读全文
posted @ 2019-02-21 12:40 xiaolaotou 阅读(3693) 评论(0) 推荐(0)