随笔分类 -  Hive

摘要:一、简介 1、hive建表时存储格式 一般情况下hive在创建表时默认的存储格式是textfile,hive常用的存储格式有五种,textfile、sequencefile、rcfile、orc、parquet。 2、五种存储格式的区别 hive五种存储格式的区别 存储格式文件存储编码格式建表指定 阅读全文
posted @ 2024-01-02 10:52 玩转大数据 阅读(1657) 评论(0) 推荐(1)
摘要:一、数据仓库分层 数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了数据建模、ETL(数据抽取、转换、加载)、作用调度等在内的完整的理论体系流程。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。 数据仓库一般为4层:数据缓冲层、数据明细层、数据服务层、 阅读全文
posted @ 2023-12-19 16:37 玩转大数据 阅读(5455) 评论(0) 推荐(0)
摘要:说明Hive在2.2版本之后开始支持Merge操作,并且Merge只能在支持ACID的表上执行 语法 MERGE INTO <target table> AS T USING <source expression/table> AS S ON <boolean expression1> WHEN M 阅读全文
posted @ 2023-08-04 09:29 玩转大数据 阅读(1222) 评论(0) 推荐(0)
摘要:在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。 Hive自带的json解析函数 1. get_json_object 语法:g 阅读全文
posted @ 2023-04-13 10:20 玩转大数据 阅读(2692) 评论(0) 推荐(0)
摘要:一、日期 TRUNC函数为指定元素而截去的日期值。 其具体的语法格式:TRUNC(date[,fmt]) 其中: date 一个日期值 fmt 日期格式 如果当日日期是:2022-11-02 select trunc('2022-11-02','MM') --2022-11-01 返回当月第一天 s 阅读全文
posted @ 2022-11-02 16:36 玩转大数据 阅读(4244) 评论(0) 推荐(0)
摘要:Hadoop 分布式文件系统(Hadoop Distributed File System),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统,提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 HDFS副本 阅读全文
posted @ 2022-11-01 19:19 玩转大数据 阅读(650) 评论(0) 推荐(0)
摘要:hive里通常通过collect_set和collect_list来进行列转行,其中collect_list为不去重转换,collect_set为去重转换。 创建一个测试表 CREATE table stu_score( stu_id string comment '学号', stu_name st 阅读全文
posted @ 2022-06-30 16:04 玩转大数据 阅读(527) 评论(0) 推荐(0)
摘要:1.从文件中加载数据建表语句: CREATE TABLE IF NOT EXISTS `test.test1`( `user_id` int, `name` string, `address` string) row format delimited fields terminated by ',' 阅读全文
posted @ 2022-06-30 14:56 玩转大数据 阅读(3598) 评论(0) 推荐(1)
摘要:如何判断 field_name 字段中是否包含字符串 “aaa”: 1.locate(字符串,字段名) select locate('aaa',field_name); 2.instr(字段名,字符串) select instr(field_name,'aaa'); 以上两种都是返回字符串aaa在字 阅读全文
posted @ 2022-04-24 09:56 玩转大数据 阅读(5023) 评论(0) 推荐(0)
摘要:Hive 中,可以用String、Date和Timestamp表示日期时间,String 用 yyyy-MM-dd 的形式表示,Date 用 yyyy-MM-dd 的形式表示,Timestamp 用 yyyy-MM-dd hh:mm:ss 的形式表示。这三种数据类型在使用细节上,有一些需要注意的点: 阅读全文
posted @ 2020-09-03 16:03 玩转大数据 阅读(8638) 评论(0) 推荐(0)
摘要:总结一下:两种表达方式是等效的方法一: case when tb1.os = 'android' then 'android'when tb1.os = 'ios' then 'iPhone'else 'PC'end as os方法二: case tb1.oswhen 'android' then 阅读全文
posted @ 2020-04-15 21:23 玩转大数据 阅读(3847) 评论(0) 推荐(0)
摘要:数据准备 CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createtime string, --day pv INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfi 阅读全文
posted @ 2019-12-14 15:05 玩转大数据 阅读(669) 评论(0) 推荐(0)
摘要:1-请详细描述将一个有结构的文本文件student.txt导入到一个hive表中的步骤,及其关键字 假设student.txt 有以下几列:id,name,gender三列 1-创建数据库 create database student_info; 2-创建hive表 student create 阅读全文
posted @ 2019-12-14 15:04 玩转大数据 阅读(1360) 评论(0) 推荐(0)
摘要:Hive动态分区参数配置 往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 使用动态分区表必须配置的 阅读全文
posted @ 2019-12-14 15:03 玩转大数据 阅读(5136) 评论(0) 推荐(0)
摘要:Hive向程序中传递变量的方式 暴力替换 字符串替换 正则替换 模板引擎 系统环境变量 shell环境变量:${env:varname} system系统变量:${system:varname} hive 命令参数 hivevar方式:${hivevar:varname} hiveconf方式:${ 阅读全文
posted @ 2019-12-14 15:01 玩转大数据 阅读(3463) 评论(0) 推荐(0)
摘要:Hive的优化策略大致分为:配置优化(hive-site.xml和hive-cli执行前配置)、表优化、hive数据倾斜解决方案。 回答的时候需要,需要准确的说出具体的配置参数,准确的说出具体的配置参数,这是一个深刻的教训。 配置优化 1-Fetch抓取配置 Fetch抓取是指,Hive中对某些情况 阅读全文
posted @ 2019-12-14 14:59 玩转大数据 阅读(696) 评论(0) 推荐(0)
摘要:数据倾斜产生的原因 数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类 Hive倾斜之group by聚合倾斜 原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会 阅读全文
posted @ 2019-12-14 14:58 玩转大数据 阅读(8259) 评论(0) 推荐(1)
摘要:Hive设置配置参数的方法 Hive提供三种可以改变环境变量的方法,分别是: (1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件; (2)、命令行参数; (3)、在已经进入cli时进行参数声明。 方法一:hive-site.xml配置参数 在Hive中,所有的默认配置 阅读全文
posted @ 2019-12-14 14:57 玩转大数据 阅读(5390) 评论(0) 推荐(0)
摘要:UDF User-Defined-Function 自定义函数 、一进一出; 背景 系统内置函数无法解决实际的业务问题,需要开发者自己编写函数实现自身的业务实现诉求。 应用场景非常多,面临的业务不同导致个性化实现很多,故udf很需要。 意义 函数扩展得到解决,极大丰富了可定制化的业务需求。 IO要求 阅读全文
posted @ 2019-12-14 14:56 玩转大数据 阅读(9118) 评论(0) 推荐(0)
摘要:聚合函数 函数处理的数据粒度为多条记录。 sum()—求和 count()—求数据量 avg()—求平均直 distinct—求不同值数 min—求最小值 max—求最人值 分析函数 Analytics functions RANK ROW_NUMBER DENSE_RANK CUME_DIST P 阅读全文
posted @ 2019-12-14 14:55 玩转大数据 阅读(1177) 评论(0) 推荐(0)