Hive - 随笔分类 - 玩转大数据

Hive的存储格式

摘要：一、简介 1、hive建表时存储格式一般情况下hive在创建表时默认的存储格式是textfile，hive常用的存储格式有五种，textfile、sequencefile、rcfile、orc、parquet。 2、五种存储格式的区别 hive五种存储格式的区别存储格式文件存储编码格式建表指定阅读全文

posted @ 2024-01-02 10:52 玩转大数据阅读(1718) 评论(0) 推荐(1)

数仓建模之数据仓库分层、事实表与维度表、拉链表、星型模型和雪花模型

摘要：一、数据仓库分层数据仓库更多代表的是一种对数据的管理和使用的方式，它是一整套包括了数据建模、ETL（数据抽取、转换、加载）、作用调度等在内的完整的理论体系流程。数据仓库在构建过程中通常都需要进行分层处理。业务不同，分层的技术处理手段也不同。数据仓库一般为4层：数据缓冲层、数据明细层、数据服务层、阅读全文

posted @ 2023-12-19 16:37 玩转大数据阅读(5743) 评论(0) 推荐(0)

Hive Merge详解

摘要：说明Hive在2.2版本之后开始支持Merge操作，并且Merge只能在支持ACID的表上执行语法 MERGE INTO <target table> AS T USING <source expression/table> AS S ON <boolean expression1> WHEN M 阅读全文

posted @ 2023-08-04 09:29 玩转大数据阅读(1264) 评论(0) 推荐(0)

Hive解析Json字符串和数组

摘要：在Hive中会有很多数据是用Json格式来存储的，如开发人员对APP上的页面进行埋点时，会将多个字段存放在一个json数组中，因此数据平台调用数据时，要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。 Hive自带的json解析函数 1. get_json_object 语法：g 阅读全文

posted @ 2023-04-13 10:20 玩转大数据阅读(2747) 评论(0) 推荐(0)

hive的trunc函数详解

摘要：一、日期 TRUNC函数为指定元素而截去的日期值。其具体的语法格式：TRUNC（date[,fmt]）其中： date 一个日期值 fmt 日期格式如果当日日期是：2022-11-02 select trunc('2022-11-02','MM') --2022-11-01 返回当月第一天 s 阅读全文

posted @ 2022-11-02 16:36 玩转大数据阅读(4307) 评论(0) 推荐(0)

Hadoop HDFS负载均衡

摘要：Hadoop 分布式文件系统（Hadoop Distributed File System），简称 HDFS，被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统，提供高吞吐量的数据访问，非常适合大规模数据集上的应用。 HDFS副本阅读全文

posted @ 2022-11-01 19:19 玩转大数据阅读(658) 评论(0) 推荐(0)

Hive 之 collect_set 和 collect_list(列转行)

摘要：hive里通常通过collect_set和collect_list来进行列转行，其中collect_list为不去重转换，collect_set为去重转换。创建一个测试表 CREATE table stu_score( stu_id string comment '学号', stu_name st 阅读全文

posted @ 2022-06-30 16:04 玩转大数据阅读(531) 评论(0) 推荐(0)

hive加载数据的几种方式

摘要：1.从文件中加载数据建表语句： CREATE TABLE IF NOT EXISTS `test.test1`( `user_id` int, `name` string, `address` string) row format delimited fields terminated by ',' 阅读全文

posted @ 2022-06-30 14:56 玩转大数据阅读(3613) 评论(0) 推荐(1)

HiveSQL如何判断一个字段中是否包含指定字符串

摘要：如何判断 field_name 字段中是否包含字符串 “aaa”： 1.locate(字符串，字段名) select locate('aaa',field_name); 2.instr(字段名,字符串) select instr(field_name,'aaa'); 以上两种都是返回字符串aaa在字阅读全文

posted @ 2022-04-24 09:56 玩转大数据阅读(5061) 评论(0) 推荐(0)

hive日期函数

摘要：Hive 中，可以用String、Date和Timestamp表示日期时间，String 用 yyyy-MM-dd 的形式表示，Date 用 yyyy-MM-dd 的形式表示，Timestamp 用 yyyy-MM-dd hh:mm:ss 的形式表示。这三种数据类型在使用细节上，有一些需要注意的点：阅读全文

posted @ 2020-09-03 16:03 玩转大数据阅读(8686) 评论(0) 推荐(0)

Hive中case when的两种语法

摘要：总结一下：两种表达方式是等效的方法一： case when tb1.os = 'android' then 'android'when tb1.os = 'ios' then 'iPhone'else 'PC'end as os方法二： case tb1.oswhen 'android' then 阅读全文

posted @ 2020-04-15 21:23 玩转大数据阅读(3850) 评论(0) 推荐(0)

Hive分析窗口函数

摘要：数据准备 CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createtime string, --day pv INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfi 阅读全文

posted @ 2019-12-14 15:05 玩转大数据阅读(673) 评论(0) 推荐(0)

Hive手写SQL案例

摘要：1-请详细描述将一个有结构的文本文件student.txt导入到一个hive表中的步骤，及其关键字假设student.txt 有以下几列：id,name,gender三列 1-创建数据库 create database student_info; 2-创建hive表 student create 阅读全文

posted @ 2019-12-14 15:04 玩转大数据阅读(1367) 评论(0) 推荐(0)

Hive动态分区

摘要：Hive动态分区参数配置往hive分区表中插入数据时，如果需要创建的分区很多，比如以表中某个字段进行分区存储，则需要复制粘贴修改很多sql去执行，效率低。因为hive是批处理系统，所以hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。使用动态分区表必须配置的阅读全文

posted @ 2019-12-14 15:03 玩转大数据阅读(5192) 评论(0) 推荐(0)

向Hive中传入变量的方式

摘要：Hive向程序中传递变量的方式暴力替换字符串替换正则替换模板引擎系统环境变量 shell环境变量：${env:varname} system系统变量：${system:varname} hive 命令参数 hivevar方式：${hivevar:varname} hiveconf方式：${ 阅读全文

posted @ 2019-12-14 15:01 玩转大数据阅读(3478) 评论(0) 推荐(0)

Hive优化策略

摘要：Hive的优化策略大致分为：配置优化(hive-site.xml和hive-cli执行前配置)、表优化、hive数据倾斜解决方案。回答的时候需要，需要准确的说出具体的配置参数，准确的说出具体的配置参数，这是一个深刻的教训。配置优化 1-Fetch抓取配置 Fetch抓取是指，Hive中对某些情况阅读全文

posted @ 2019-12-14 14:59 玩转大数据阅读(699) 评论(0) 推荐(0)

Hive数据倾斜的原因及主要解决方法

摘要：数据倾斜产生的原因数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类 Hive倾斜之group by聚合倾斜原因：分组的维度过少，每个维度的值过多，导致处理某值的reduce耗时很久；对一些类型统计的时候某种类型的数据量特别多，其他的数据类型特别少。当按照类型进行group by的时候，会阅读全文

posted @ 2019-12-14 14:58 玩转大数据阅读(8268) 评论(0) 推荐(1)

Hive设置配置参数的方法，列举8个常用配置

摘要：Hive设置配置参数的方法 Hive提供三种可以改变环境变量的方法，分别是：（1）、修改${HIVE_HOME}/conf/hive-site.xml配置文件；（2）、命令行参数；（3）、在已经进入cli时进行参数声明。方法一：hive-site.xml配置参数在Hive中，所有的默认配置阅读全文

posted @ 2019-12-14 14:57 玩转大数据阅读(5405) 评论(0) 推荐(0)

简述UDF/UDAF/UDTF是什么，各自解决问题及应用场景

摘要：UDF User-Defined-Function 自定义函数、一进一出；背景系统内置函数无法解决实际的业务问题，需要开发者自己编写函数实现自身的业务实现诉求。应用场景非常多，面临的业务不同导致个性化实现很多，故udf很需要。意义函数扩展得到解决，极大丰富了可定制化的业务需求。 IO要求阅读全文

posted @ 2019-12-14 14:56 玩转大数据阅读(9153) 评论(0) 推荐(0)

Hive常用的10个系统函数及作用

摘要：聚合函数函数处理的数据粒度为多条记录。 sum()—求和 count()—求数据量 avg()—求平均直 distinct—求不同值数 min—求最小值 max—求最人值分析函数 Analytics functions RANK ROW_NUMBER DENSE_RANK CUME_DIST P 阅读全文

posted @ 2019-12-14 14:55 玩转大数据阅读(1178) 评论(0) 推荐(0)

随笔分类 - Hive

公告