Hive - 随笔分类 - RICH-ATONE

Hive常见时间日期函数的使用与问题整理

摘要：Hive常见时间日期函数的使用与问题整理阅读全文

posted @ 2024-02-22 15:56 RICH-ATONE 阅读(58) 评论(0) 推荐(0)

Hive通过-f调用sql文件并进行传参

摘要：Hive通过-f调用sql文件并进行传参 test.sql 示例： select * from dwd.test where dt='${hiveconf:dt}' and gn='${hiveconf:gn}' limit 10 ; 传参示例： ~/bin/hive -hiveconf dt=20 阅读全文

posted @ 2024-01-19 14:01 RICH-ATONE 阅读(172) 评论(0) 推荐(0)

hive分桶优化

摘要：什么是分桶？和分区一样，分桶也是一种通过改变表的存储模式，从而完成对表优化的一种调优方式。但和分区不同的是，分区是将表拆分到不同的子目录中进行存储，而分桶是将表拆分到不同文件中进行存储。那什么是分桶呢？它按分桶键哈希取模的方式，将表中数据随机、均匀地分发到若干桶文件中。比如，对表的ID字段进阅读全文

posted @ 2022-09-06 17:52 RICH-ATONE 阅读(733) 评论(0) 推荐(0)

Hive中的文件存储格式TEXTFILE、SEQUENCEFILE、RCFILE、ORCFILE、Parquet 和 AVRO使用与区别详解

摘要：参考： https://blog.csdn.net/weixin_43230682/article/details/107185876 阅读全文

posted @ 2022-05-16 19:47 RICH-ATONE 阅读(176) 评论(0) 推荐(0)

Hive：如何解决NULL值引发的数据倾斜

摘要：实际业务中有些大量的null值或者一些无意义的数据参与到计算作业中，表中有大量的null值，如果表之间进行join操作，就会有shuffle产生，这样所有的null值都会被分配到一个reduce中，必然产生数据倾斜。疑问：NULL值和需要匹配的字段根本就匹配不上，为什么会进入到同一个reduce? 阅读全文

posted @ 2022-05-10 16:26 RICH-ATONE 阅读(1370) 评论(0) 推荐(0)

Hive基础优化详解

摘要：参考： HIVE基础知识及优化（面试必备） Hive性能优化阅读全文

posted @ 2022-03-20 21:21 RICH-ATONE 阅读(96) 评论(0) 推荐(0)

Hive是如何将hql语法转换成MR执行的

摘要：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能.说白了，hive就是MapReduce客户端,将用户编写的HQL语法转换成MR程序进行执行。那么，hive是如何实现将hql语法转换成Mr的呢？如图中所示，总的来说，Hive是通过给用户提供的阅读全文

posted @ 2021-12-31 17:14 RICH-ATONE 阅读(366) 评论(0) 推荐(0)

Hive执行报错org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.InterruptedException: sleep interrupted

摘要：报错日志如下：（肯定有时报错信息不准确，不能准确定位问题出现在哪里） org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.InterruptedException: sleep interrupted at org.ap 阅读全文

posted @ 2021-11-01 19:11 RICH-ATONE 阅读(2497) 评论(0) 推荐(0)

hive on spark运行时，读取不到hive元数据问题

摘要：部署Hive On Spark时spark读取Hive元数据报错： Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spar 阅读全文

posted @ 2021-10-13 15:31 RICH-ATONE 阅读(1262) 评论(0) 推荐(1)

hive解决小文件过多的问题

摘要：针对小文件问题，一般可以再采集端（flume）进行合并，后期的话可以针对如下方式进行解决：相比map个数的控制复杂性，reduce个数的设定要相对简单多了，reduce的个数一般最后决定了输出文件的个数，二者相等，如果想多输出文件的个数（这样文件变小，但有可能程序变慢），那么可以人为增加redu 阅读全文

posted @ 2021-08-26 15:58 RICH-ATONE 阅读(1657) 评论(0) 推荐(0)

Hadoop文件存储格式及Hive数据压缩

摘要：一、文件的存储格式 1.TEXTFILE 创建表时的默认文件格式，数据被存储成文本格式。文本文件可以被分割和并行处理，也可以使用压缩，比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理，会造成一个作业只有一个mapper去处理数据，使用压缩的文本文件要确保文件不要过大，一阅读全文

posted @ 2021-08-11 18:51 RICH-ATONE 阅读(864) 评论(0) 推荐(1)

hive报错Exception in thread "main" java.lang.OutOfMemoryError: PermGen space

摘要：解决方法：在hive/conf/hive-env.sh文件中，加入下面的内容，问题得以解决： export HADOOP_OPTS="$HADOOP_OPTS -XX:PermSize=512M -XX:MaxPermSize=1024M" Exception in thread "main" j 阅读全文

posted @ 2021-01-28 18:45 RICH-ATONE 阅读(719) 评论(0) 推荐(0)

经典的SparkSQL/Hive-SQL/MySQL面试-练习题

摘要：经典的SparkSQL/Hive-SQL/MySQL面试-练习题阅读全文

posted @ 2021-01-15 18:12 RICH-ATONE 阅读(283) 评论(0) 推荐(0)

Hive升级步骤详解

摘要：HIVE升级： 1、停止Hive相关进程 ps -ef | grep hive | grep -v grep | awk '{print $2}' | xargs kill -9 2、hive元数据备份方法一：mysqldump -htest-hadoop-2-21 -uroot -proot h 阅读全文

posted @ 2020-12-28 16:36 RICH-ATONE 阅读(726) 评论(0) 推荐(1)

Hive表设计压缩问题

摘要：对于压缩算法的选择，我们倾向于对不同场景选择不同的压缩算法。数仓一般被分为三层:ODS层: 源数据层 , 主要和数据源打交道原始日志一般采用 textFile存储，我们可以创建临时外部表，location指定原始日志位置，可以查询导入到ODS层,存储格式, 一般采用：ORC + ZLIB (从文阅读全文

posted @ 2020-12-28 15:12 RICH-ATONE 阅读(448) 评论(0) 推荐(1)

sql中join的on和where操作引发的谓词下推优化

摘要：谓词下推操作，其实Hive也陆陆续续做了一定的优化操作，但是有些地方还需要我们自己人为的去进行优化， 1.在join操作中，针对一般的单表过滤条件，操作的时候尽量直接进行谓词下推操作(即把过滤条件直接放到子查询当中)，不要把过滤条件在放到on后面的where条件中，防止查询的数据不准确性。 2.在j 阅读全文

posted @ 2020-12-25 17:23 RICH-ATONE 阅读(890) 评论(0) 推荐(0)

Hive高阶函数posexplode（可以用于生成动态日期序列）

摘要：示例1：现要生成start_time('2020-11-01')到end_time("2020-11-30")之间的所有日期 select i, date_add('2020-11-01', pe.i) as dynamic_date ,'2020-11-01' as start_time, '2 阅读全文

posted @ 2020-12-11 18:46 RICH-ATONE 阅读(9543) 评论(0) 推荐(1)

Hive使用ORC格式存储进行优化

摘要：参考官网： https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 参考：更高的压缩比，更好的性能–使用ORC文件格式优化Hive 大数据：Hive - ORC 文件存储格式阅读全文

posted @ 2020-12-11 18:03 RICH-ATONE 阅读(490) 评论(0) 推荐(0)

Hive动态分区详解及注意的问题

摘要：设置动静态混合分区报错： FAILED: SemanticException [Error 10094]: Line 1:60 Dynamic partition cannot be the parent of a static partition 'xxx' 注意： 1.当设置动静态分区混合的时候阅读全文

posted @ 2020-12-03 18:51 RICH-ATONE 阅读(1564) 评论(0) 推荐(0)

lateral view explode行转列的简单使用

摘要：示例数据： des字段： 6ab4c|6ab46|6ab47|6ab48|6ab49|6abc0|6abc1|6abc2|6abc3|6abc4|6abcc|6abc6|6abc7type字段： 6df4c|6df46|6df47|6df48|6df49|6dfc0|6dfc1|6dfc2|6dfc 阅读全文

posted @ 2020-12-03 10:50 RICH-ATONE 阅读(801) 评论(0) 推荐(0)

RICH-ATONE

随笔分类 - Hive