随笔分类 - hive
摘要:一、将hive表数据查询出来转为json对象输出 1、将查询出来的数据转为一行一行,并指定分割符的数据 2、使用UDF函数,将每一行数据作为string传入UDF函数中转换为json再返回 1、准备数据 2、查询出来的数据转为一行一行,并指定分割符的数据 3、准备UDF函数 二、将hive表数据查询
阅读全文
摘要:一、准备jar包:可以去mvn仓库下载 二、 进入hive添加jar 三、准备数据 四、创建与Elasticsearch对接test外部表 创建源数据表test1 hive> load data local inpath '/mnt/test.txt' into table test1;Loadin
阅读全文
摘要:1、日期比较函数:datediff语法:datediff(string enddate,string startdate) 返回值:int 说明:返回结束日期减去开始日期的天数。 例如: 2、日期增加函数:date_add语法:date_add(string startdate, intdays)
阅读全文
摘要:一、时间戳函数 1、获取当前时区的UNIX时间戳:select unix_timestamp(); 2、将指定时间转为UNIX时间戳: select unix_timestamp('2012-03-03 11:45:31'); 3、将指定的实际转为贵UNIX时间戳:select unix_times
阅读全文
摘要:一、数据准备 现准备原始json数据(test.json)如下: 现在将数据导入到hive中,并且最终想要得到这么一个结果: 可以使用:内置函数(get_json_object)或者自定义函数完成 二、get_json_object(string json_string, string path)
阅读全文
摘要:文件数目过多,会给HDFS带来压力,并且会影响处理效率,可以通过合并Map和Reduce的结果文件来消除这样的影响: set hive.merge.mapfiles = true ##在 map only 的任务结束时合并小文件 set hive.merge.mapredfiles = false
阅读全文
摘要:一、安装方式(内嵌模式,本地模式远程模式) 安装环境以及前提说明: Hive是依赖于hadoop系统的,因此在运行Hive之前需要保证已经搭建好hadoop集群环境。 本例中使用的hadoop版本为2.6.1,Hive版本为2.1.1版。 1.Hive的3种安装方式: 1)内嵌模式(元数据保存在内嵌
阅读全文
摘要:一、相关分析 通常当聚合率和数据量没有大于一定程度时,对于不涉及Rollup、Cube、Grouping_Sets这三种操作的聚合很少出现GC问题。对于Rollup、Cube、Grouping_Sets操作可采用如下优化方法避免GC。 1、Rollup / Cube / Grouping_Sets时
阅读全文
摘要:一、UDF相关概念 UDF,用户自定义函数,可以直接在SQL语句中计算的函数:三个优点: UDF 存放在内存中, 设计不当将导致系统的崩溃, 所以必须在必要的时候实施优化。 对 UDF 的优化是通过手动改写原来的 UDF 代码实现的, 主要有以下两种场景: 1) 如果 UDF 嵌套过于复杂, 可以重
阅读全文
摘要:一、java操作hive 1、启动服务:hiveserver2,让hive开启与外部连接的服务 nohup hiveserver2 1>/dev/null 2>/dev/null &2、加入hive的依赖包 <dependency> <groupId>org.apache.hive</groupId
阅读全文
摘要:一、 选出合理的分桶字段。 可以拿 (字段中重复值最多的记录数/表的总记录数) 的值作为是否可以作为分桶字段的依据。 查询字段中重复值最多的记录数: COL_COUNT=select column1,count(1) cnt from table_name group by column1 or
阅读全文
摘要:实例一:来源: https://www.cnblogs.com/kimbo/p/6208973.html 行转列 (对某列拆分,一列拆多行) 使用函数:lateral view explode(split(column, ',')) num eg: 如表:t_row_to_column_tmp 数据
阅读全文
摘要:一、 分区函数Partition By与row_number()、rank()、dense_rank()的用法(获取分组(分区)中前几条记录) 一、数据准备 --1、创建学生成绩表 id int, --主键 Grade int, --班级 Score int --分数 id int, --主键 Gr
阅读全文

浙公网安备 33010602011771号