RICH-ATONE

随笔分类 -  Hive

1 2 下一页

Hive常见时间日期函数的使用与问题整理
摘要:Hive常见时间日期函数的使用与问题整理 阅读全文

posted @ 2024-02-22 15:56 RICH-ATONE 阅读(34) 评论(0) 推荐(0)

Hive通过-f调用sql文件并进行传参
摘要:Hive通过-f调用sql文件并进行传参 test.sql 示例: select * from dwd.test where dt='${hiveconf:dt}' and gn='${hiveconf:gn}' limit 10 ; 传参示例: ~/bin/hive -hiveconf dt=20 阅读全文

posted @ 2024-01-19 14:01 RICH-ATONE 阅读(136) 评论(0) 推荐(0)

hive分桶优化
摘要:什么是分桶? 和分区一样,分桶也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式。 但和分区不同的是,分区是将表拆分到不同的子目录中进行存储,而分桶是将表拆分到不同文件中进行存储。 那什么是分桶呢?它按分桶键哈希取模的方式,将表中数据随机、均匀地分发到若干桶文件中。 比如,对表的ID字段进 阅读全文

posted @ 2022-09-06 17:52 RICH-ATONE 阅读(681) 评论(0) 推荐(0)

Hive中的文件存储格式TEXTFILE、SEQUENCEFILE、RCFILE、ORCFILE、Parquet 和 AVRO使用与区别详解
摘要:参考: https://blog.csdn.net/weixin_43230682/article/details/107185876 阅读全文

posted @ 2022-05-16 19:47 RICH-ATONE 阅读(148) 评论(0) 推荐(0)

Hive:如何解决NULL值引发的数据倾斜
摘要:实际业务中有些大量的null值或者一些无意义的数据参与到计算作业中,表中有大量的null值,如果表之间进行join操作,就会有shuffle产生,这样所有的null值都会被分配到一个reduce中,必然产生数据倾斜。 疑问:NULL值和需要匹配的字段根本就匹配不上,为什么会进入到同一个reduce? 阅读全文

posted @ 2022-05-10 16:26 RICH-ATONE 阅读(1325) 评论(0) 推荐(0)

Hive基础优化详解
摘要:参考: HIVE基础知识及优化(面试必备) Hive性能优化 阅读全文

posted @ 2022-03-20 21:21 RICH-ATONE 阅读(88) 评论(0) 推荐(0)

Hive是如何将hql语法转换成MR执行的
摘要:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能.说白了,hive就是MapReduce客户端,将用户编写的HQL语法转换成MR程序进行执行。那么,hive是如何实现将hql语法转换成Mr的呢? 如图中所示,总的来说,Hive是通过给用户提供的 阅读全文

posted @ 2021-12-31 17:14 RICH-ATONE 阅读(351) 评论(0) 推荐(0)

Hive执行报错org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.InterruptedException: sleep interrupted
摘要:报错日志如下:(肯定有时报错信息不准确,不能准确定位问题出现在哪里) org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.InterruptedException: sleep interrupted at org.ap 阅读全文

posted @ 2021-11-01 19:11 RICH-ATONE 阅读(2445) 评论(0) 推荐(0)

hive on spark运行时 ,读取不到hive元数据问题
摘要:部署Hive On Spark时spark读取Hive元数据报错: Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spar 阅读全文

posted @ 2021-10-13 15:31 RICH-ATONE 阅读(1215) 评论(0) 推荐(1)

hive解决小文件过多的问题
摘要:针对小文件问题,一般可以再采集端(flume)进行合并,后期的话可以针对如下方式进行解决: 相比map个数的控制复杂性,reduce个数的设定要相对简单多了,reduce的个数一般最后决定了输出文件的个数, 二者相等,如果想多输出文件的个数(这样文件变小,但有可能程序变慢),那么可以人为增加redu 阅读全文

posted @ 2021-08-26 15:58 RICH-ATONE 阅读(1589) 评论(0) 推荐(0)

Hadoop文件存储格式及Hive数据压缩
摘要:一、文件的存储格式 1.TEXTFILE 创建表时的默认文件格式,数据被存储成文本格式。文本文件可以被分割和并行处理,也可以使用压缩,比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理,会造成一个作业只有一个mapper去处理数据,使用压缩的文本文件要确保文件不要过大,一 阅读全文

posted @ 2021-08-11 18:51 RICH-ATONE 阅读(815) 评论(0) 推荐(1)

hive报错Exception in thread "main" java.lang.OutOfMemoryError: PermGen space
摘要:解决方法: 在hive/conf/hive-env.sh文件中,加入下面的内容,问题得以解决: export HADOOP_OPTS="$HADOOP_OPTS -XX:PermSize=512M -XX:MaxPermSize=1024M" Exception in thread "main" j 阅读全文

posted @ 2021-01-28 18:45 RICH-ATONE 阅读(702) 评论(0) 推荐(0)

经典的SparkSQL/Hive-SQL/MySQL面试-练习题
摘要:经典的SparkSQL/Hive-SQL/MySQL面试-练习题 阅读全文

posted @ 2021-01-15 18:12 RICH-ATONE 阅读(264) 评论(0) 推荐(0)

Hive升级步骤详解
摘要:HIVE升级: 1、停止Hive相关进程 ps -ef | grep hive | grep -v grep | awk '{print $2}' | xargs kill -9 2、hive元数据备份 方法一:mysqldump -htest-hadoop-2-21 -uroot -proot h 阅读全文

posted @ 2020-12-28 16:36 RICH-ATONE 阅读(698) 评论(0) 推荐(1)

Hive表设计压缩问题
摘要:对于压缩算法的选择,我们倾向于对不同场景选择不同的压缩算法。 数仓一般被分为三层:ODS层: 源数据层 , 主要和数据源打交道原始日志一般采用 textFile存储 ,我们可以创建临时外部表,location指定原始日志位置,可以查询导入到ODS层,存储格式, 一般采用:ORC + ZLIB (从文 阅读全文

posted @ 2020-12-28 15:12 RICH-ATONE 阅读(424) 评论(0) 推荐(1)

sql中join的on和where操作引发的谓词下推优化
摘要:谓词下推操作,其实Hive也陆陆续续做了一定的优化操作,但是有些地方还需要我们自己人为的去进行优化, 1.在join操作中,针对一般的单表过滤条件,操作的时候尽量直接进行谓词下推操作(即把过滤条件直接放到子查询当中),不要把过滤条件在放到on后面的where条件中,防止查询的数据不准确性。 2.在j 阅读全文

posted @ 2020-12-25 17:23 RICH-ATONE 阅读(849) 评论(0) 推荐(0)

Hive高阶函数posexplode(可以用于生成动态日期序列)
摘要:示例1: 现要生成start_time('2020-11-01')到end_time("2020-11-30")之间的所有日期 select i, date_add('2020-11-01', pe.i) as dynamic_date ,'2020-11-01' as start_time, '2 阅读全文

posted @ 2020-12-11 18:46 RICH-ATONE 阅读(9431) 评论(0) 推荐(1)

Hive使用ORC格式存储进行优化
摘要:参考官网: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 参考: 更高的压缩比,更好的性能–使用ORC文件格式优化Hive 大数据:Hive - ORC 文件存储格式 阅读全文

posted @ 2020-12-11 18:03 RICH-ATONE 阅读(454) 评论(0) 推荐(0)

Hive动态分区详解及注意的问题
摘要:设置动静态混合分区报错: FAILED: SemanticException [Error 10094]: Line 1:60 Dynamic partition cannot be the parent of a static partition 'xxx' 注意: 1.当设置动静态分区混合的时候 阅读全文

posted @ 2020-12-03 18:51 RICH-ATONE 阅读(1544) 评论(0) 推荐(0)

lateral view explode行转列的简单使用
摘要:示例数据: des字段: 6ab4c|6ab46|6ab47|6ab48|6ab49|6abc0|6abc1|6abc2|6abc3|6abc4|6abcc|6abc6|6abc7type字段: 6df4c|6df46|6df47|6df48|6df49|6dfc0|6dfc1|6dfc2|6dfc 阅读全文

posted @ 2020-12-03 10:50 RICH-ATONE 阅读(773) 评论(0) 推荐(0)

1 2 下一页

导航