摘要:第一:列转行 (对某列拆分,一列拆多行) lateral view explode(split(column, ',')) num 数据 2122 9,12 2123 12,15 2124 12,15 2125 1,12,15 建表 create table if not exists t_row_
阅读全文
摘要:在大佬那里找到的:https://www.cnblogs.com/gxgd/p/9431783.html select … from … where … group by … having … order by … limit的执行顺序 其实总结hive的执行顺序也是总结mapreduce的执行顺序
阅读全文
摘要:第一种:textfile 这种格式下,hive表可以直接load data 第二种:parquet 这种格式下,可以很好的支持impala查询 在sql操作中的时间也比较短 第三种 orc hive和spark都支持这种格式(按行分块,按列存储) 一般情况下:orc格式用的比较多, case1:有同
阅读全文
摘要:hive的数据倾斜的原因分析:少量key值对应了大量的数据,所以导致在reduce阶段,少数的几个reduce运行特别慢(数据量太大)xuexi: (http://itindex.net/detail/57899-spark-%E6%95%B0%E6%8D%AE-%E6%96%B9%E6%B3%95
阅读全文
摘要:数据 B 10 store_B_4 A 12 store_A_1 A 14 store_A_2 B 15 store_B_1 B 19 store_B_2 B 30 store_B_3 建表及加载数据 create table if not exists store( sid string, amo
阅读全文
摘要:hdfs数据写入: 第一步:客户端通过dfs模块向namenade请求:输出目录是否存在、父目录是否存在 第二步:namenode通过检查hdfs目录,返回客户端结果 第三步:客户端向namenode请求:数据节点(3个)dn1,dn2,dn3 第四步:namenode将数据节点的具体位置返回给客户
阅读全文
摘要:1、数据文件: 1 2019-07-11 1 1 2019-07-12 1 1 2019-07-13 1 1 2019-07-14 1 1 2019-07-15 1 1 2019-07-16 1 1 2019-07-17 1 1 2019-07-18 1 2 2019-07-11 1 2 2019-
阅读全文
摘要:地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.rand() 语法: rand(),rand(int seed) 返回值: double 说明:返回一个0到1范围内的随机数。如果指定种子seed,则会等
阅读全文
摘要:map的shuffle过程分为6个步骤 split --> map --> partition --> kvbuffer(--> sort --> spill) -->merge (--> segment列表 )-->file(文件) 第一步split(切分数据) 通过API接口,接入准备的数据,按
阅读全文
摘要:目的:为了整理自己的思路,基本上都是从大佬那里截取的 一:hive的map数量 一般情况下,是按照hdfs的数据块大小来决定,默认是128M,也就是被读取的文件整除128M之后的个数,例:128M就是一个map,129M就是两个map 按照1.中的思路,可能会出现一种状况,大量的小文件,会导致大量的
阅读全文
摘要:在mysql与oracle中 如果在开发中确实需要用到count()聚合,那么优先考虑count(*),因为mysql数据库本身对于count(*)做了特别的优化处理。 有主键或联合主键的情况下,count(*)略比count(1)快一些。 没有主键的情况下count(1)比count(*)快一些。
阅读全文
摘要:问:什么是星型模型? 答:星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余。 问:什么是雪花模型? 答:当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星
阅读全文
摘要:如果大概估算出数据所占用的存储空间 1.存储的单位换算 1字节(b)=8比特(bit) 1千字节(kb)=1024字节(b) 1兆字节(mb)=1024千字节(kb) 1千兆字节(gb)=1024兆字节(mb) 1太字节(tb)=1024千兆字节(gb) 1拍字节(pb)=1024太字节(tb) 1
阅读全文