hive - 随笔分类 - xiaolaotou

hive 将hive表数据查询出来转为json对象和json数组输出

摘要：一、将hive表数据查询出来转为json对象输出 1、将查询出来的数据转为一行一行，并指定分割符的数据 2、使用UDF函数，将每一行数据作为string传入UDF函数中转换为json再返回 1、准备数据 2、查询出来的数据转为一行一行，并指定分割符的数据 3、准备UDF函数二、将hive表数据查询阅读全文

posted @ 2019-08-09 11:11 xiaolaotou 阅读(19413) 评论(0) 推荐(0)

Hive数据导入Elasticsearch

摘要：一、准备jar包：可以去mvn仓库下载二、进入hive添加jar 三、准备数据四、创建与Elasticsearch对接test外部表创建源数据表test1 hive> load data local inpath '/mnt/test.txt' into table test1;Loadin 阅读全文

posted @ 2019-05-05 18:07 xiaolaotou 阅读(3382) 评论(0) 推荐(0)

HIve中 datediff，date_add和date_sub的用法

摘要：1、日期比较函数：datediff语法：datediff(string enddate,string startdate) 返回值：int 说明：返回结束日期减去开始日期的天数。例如： 2、日期增加函数：date_add语法：date_add(string startdate, intdays) 阅读全文

posted @ 2019-05-05 16:45 xiaolaotou 阅读(11619) 评论(0) 推荐(0)

Hive日期函数总结（转学习使用）

摘要：一、时间戳函数 1、获取当前时区的UNIX时间戳：select unix_timestamp(); 2、将指定时间转为UNIX时间戳： select unix_timestamp('2012-03-03 11:45:31'); 3、将指定的实际转为贵UNIX时间戳：select unix_times 阅读全文

posted @ 2019-05-05 15:46 xiaolaotou 阅读(1602) 评论(0) 推荐(0)

hive常见5个面试题

该文被密码保护。

posted @ 2019-04-03 12:08 xiaolaotou 阅读(3) 评论(0) 推荐(0)

hive之Json解析(普通Json和Json数组)

摘要：一、数据准备现准备原始json数据(test.json)如下：现在将数据导入到hive中，并且最终想要得到这么一个结果：可以使用：内置函数（get_json_object）或者自定义函数完成二、get_json_object(string json_string, string path) 阅读全文

posted @ 2019-04-02 18:03 xiaolaotou 阅读(87115) 评论(2) 推荐(4)

hive存储格式

该文被密码保护。

posted @ 2019-04-02 17:29 xiaolaotou 阅读(1) 评论(0) 推荐(0)

hive优化之小文件合并

摘要：文件数目过多，会给HDFS带来压力，并且会影响处理效率，可以通过合并Map和Reduce的结果文件来消除这样的影响： set hive.merge.mapfiles = true ##在 map only 的任务结束时合并小文件 set hive.merge.mapredfiles = false 阅读全文

posted @ 2019-03-29 15:26 xiaolaotou 阅读(7613) 评论(0) 推荐(0)

四、hive安装

摘要：一、安装方式（内嵌模式，本地模式远程模式）安装环境以及前提说明： Hive是依赖于hadoop系统的，因此在运行Hive之前需要保证已经搭建好hadoop集群环境。本例中使用的hadoop版本为2.6.1，Hive版本为2.1.1版。 1.Hive的3种安装方式： 1）内嵌模式（元数据保存在内嵌阅读全文

posted @ 2019-03-25 16:20 xiaolaotou 阅读(192) 评论(0) 推荐(0)

Group by后加rollup、cube、Grouping_Sets的用法区别

摘要：一、相关分析通常当聚合率和数据量没有大于一定程度时，对于不涉及Rollup、Cube、Grouping_Sets这三种操作的聚合很少出现GC问题。对于Rollup、Cube、Grouping_Sets操作可采用如下优化方法避免GC。 1、Rollup / Cube / Grouping_Sets时阅读全文

posted @ 2019-03-07 17:53 xiaolaotou 阅读(1274) 评论(0) 推荐(0)

hive相关面试题

该文被密码保护。

posted @ 2019-03-05 11:41 xiaolaotou 阅读(4) 评论(0) 推荐(0)

hive UDF函数

摘要：一、UDF相关概念 UDF，用户自定义函数，可以直接在SQL语句中计算的函数：三个优点： UDF 存放在内存中，设计不当将导致系统的崩溃，所以必须在必要的时候实施优化。对 UDF 的优化是通过手动改写原来的 UDF 代码实现的，主要有以下两种场景： 1) 如果 UDF 嵌套过于复杂，可以重阅读全文

posted @ 2019-03-05 11:34 xiaolaotou 阅读(4286) 评论(0) 推荐(0)

java操作hive和beeline的使用

摘要：一、java操作hive 1、启动服务:hiveserver2，让hive开启与外部连接的服务 nohup hiveserver2 1>/dev/null 2>/dev/null &2、加入hive的依赖包 <dependency> <groupId>org.apache.hive</groupId 阅读全文

posted @ 2019-02-22 10:46 xiaolaotou 阅读(3347) 评论(0) 推荐(0)

选择分桶字段和计算分桶的正确方法

摘要：一、选出合理的分桶字段。可以拿 (字段中重复值最多的记录数/表的总记录数) 的值作为是否可以作为分桶字段的依据。  查询字段中重复值最多的记录数： COL_COUNT=select column1，count(1) cnt from table_name group by column1 or 阅读全文

posted @ 2019-02-21 18:04 xiaolaotou 阅读(4429) 评论(3) 推荐(0)

hive行转列，列转行

摘要：实例一：来源： https://www.cnblogs.com/kimbo/p/6208973.html 行转列 (对某列拆分，一列拆多行) 使用函数：lateral view explode(split(column, ',')) num eg: 如表：t_row_to_column_tmp 数据阅读全文

posted @ 2019-02-21 12:51 xiaolaotou 阅读(2470) 评论(0) 推荐(0)

hive中一般取top n时，row_number(),rank,dense_ran()常用三个函数

摘要：一、分区函数Partition By与row_number()、rank()、dense_rank()的用法（获取分组（分区）中前几条记录）一、数据准备 --1、创建学生成绩表 id int, --主键 Grade int, --班级 Score int --分数 id int, --主键 Gr 阅读全文

posted @ 2019-02-21 12:40 xiaolaotou 阅读(3713) 评论(0) 推荐(0)

xiaolaotou

随笔分类 - hive

公告