摘要:Hive通过-f调用sql文件并进行传参 test.sql 示例: select * from dwd.test where dt='${hiveconf:dt}' and gn='${hiveconf:gn}' limit 10 ; 传参示例: ~/bin/hive -hiveconf dt=20
阅读全文
摘要:什么是分桶? 和分区一样,分桶也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式。 但和分区不同的是,分区是将表拆分到不同的子目录中进行存储,而分桶是将表拆分到不同文件中进行存储。 那什么是分桶呢?它按分桶键哈希取模的方式,将表中数据随机、均匀地分发到若干桶文件中。 比如,对表的ID字段进
阅读全文
摘要:参考: https://blog.csdn.net/weixin_43230682/article/details/107185876
阅读全文
摘要:实际业务中有些大量的null值或者一些无意义的数据参与到计算作业中,表中有大量的null值,如果表之间进行join操作,就会有shuffle产生,这样所有的null值都会被分配到一个reduce中,必然产生数据倾斜。 疑问:NULL值和需要匹配的字段根本就匹配不上,为什么会进入到同一个reduce?
阅读全文
摘要:参考: HIVE基础知识及优化(面试必备) Hive性能优化
阅读全文
摘要:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能.说白了,hive就是MapReduce客户端,将用户编写的HQL语法转换成MR程序进行执行。那么,hive是如何实现将hql语法转换成Mr的呢? 如图中所示,总的来说,Hive是通过给用户提供的
阅读全文
摘要:报错日志如下:(肯定有时报错信息不准确,不能准确定位问题出现在哪里) org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.InterruptedException: sleep interrupted at org.ap
阅读全文
摘要:部署Hive On Spark时spark读取Hive元数据报错: Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spar
阅读全文
摘要:针对小文件问题,一般可以再采集端(flume)进行合并,后期的话可以针对如下方式进行解决: 相比map个数的控制复杂性,reduce个数的设定要相对简单多了,reduce的个数一般最后决定了输出文件的个数, 二者相等,如果想多输出文件的个数(这样文件变小,但有可能程序变慢),那么可以人为增加redu
阅读全文
摘要:一、文件的存储格式 1.TEXTFILE 创建表时的默认文件格式,数据被存储成文本格式。文本文件可以被分割和并行处理,也可以使用压缩,比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理,会造成一个作业只有一个mapper去处理数据,使用压缩的文本文件要确保文件不要过大,一
阅读全文
摘要:解决方法: 在hive/conf/hive-env.sh文件中,加入下面的内容,问题得以解决: export HADOOP_OPTS="$HADOOP_OPTS -XX:PermSize=512M -XX:MaxPermSize=1024M" Exception in thread "main" j
阅读全文
摘要:经典的SparkSQL/Hive-SQL/MySQL面试-练习题
阅读全文
摘要:HIVE升级: 1、停止Hive相关进程 ps -ef | grep hive | grep -v grep | awk '{print $2}' | xargs kill -9 2、hive元数据备份 方法一:mysqldump -htest-hadoop-2-21 -uroot -proot h
阅读全文
摘要:对于压缩算法的选择,我们倾向于对不同场景选择不同的压缩算法。 数仓一般被分为三层:ODS层: 源数据层 , 主要和数据源打交道原始日志一般采用 textFile存储 ,我们可以创建临时外部表,location指定原始日志位置,可以查询导入到ODS层,存储格式, 一般采用:ORC + ZLIB (从文
阅读全文
摘要:谓词下推操作,其实Hive也陆陆续续做了一定的优化操作,但是有些地方还需要我们自己人为的去进行优化, 1.在join操作中,针对一般的单表过滤条件,操作的时候尽量直接进行谓词下推操作(即把过滤条件直接放到子查询当中),不要把过滤条件在放到on后面的where条件中,防止查询的数据不准确性。 2.在j
阅读全文
摘要:示例1: 现要生成start_time('2020-11-01')到end_time("2020-11-30")之间的所有日期 select i, date_add('2020-11-01', pe.i) as dynamic_date ,'2020-11-01' as start_time, '2
阅读全文
摘要:参考官网: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 参考: 更高的压缩比,更好的性能–使用ORC文件格式优化Hive 大数据:Hive - ORC 文件存储格式
阅读全文
摘要:设置动静态混合分区报错: FAILED: SemanticException [Error 10094]: Line 1:60 Dynamic partition cannot be the parent of a static partition 'xxx' 注意: 1.当设置动静态分区混合的时候
阅读全文
摘要:示例数据: des字段: 6ab4c|6ab46|6ab47|6ab48|6ab49|6abc0|6abc1|6abc2|6abc3|6abc4|6abcc|6abc6|6abc7type字段: 6df4c|6df46|6df47|6df48|6df49|6dfc0|6dfc1|6dfc2|6dfc
阅读全文