王昱棋

hive 列转行行转列

摘要：第一：列转行 (对某列拆分，一列拆多行) lateral view explode(split(column, ',')) num 数据 2122 9,12 2123 12,15 2124 12,15 2125 1,12,15 建表 create table if not exists t_row_ 阅读全文

posted @ 2020-08-24 01:47 王昱棋阅读(267) 评论(0) 推荐(0)

select … from … where … group by … having … order by … limit的执行顺序

摘要：在大佬那里找到的：https://www.cnblogs.com/gxgd/p/9431783.html select … from … where … group by … having … order by … limit的执行顺序其实总结hive的执行顺序也是总结mapreduce的执行顺序阅读全文

posted @ 2020-08-24 00:58 王昱棋阅读(536) 评论(0) 推荐(0)

hive的⽂件格式存储对比

摘要：第一种：textfile 这种格式下，hive表可以直接load data 第二种：parquet 这种格式下，可以很好的支持impala查询在sql操作中的时间也比较短第三种 orc hive和spark都支持这种格式（按行分块，按列存储）一般情况下：orc格式用的比较多， case1:有同阅读全文

posted @ 2020-08-24 00:29 王昱棋阅读(139) 评论(0) 推荐(0)

hive数据倾斜的情况处理

摘要： hive的数据倾斜的原因分析：少量key值对应了大量的数据，所以导致在reduce阶段，少数的几个reduce运行特别慢（数据量太大）xuexi: (http://itindex.net/detail/57899-spark-%E6%95%B0%E6%8D%AE-%E6%96%B9%E6%B3%95 阅读全文

posted @ 2020-08-24 00:18 王昱棋阅读(276) 评论(0) 推荐(0)

hive--distribute by and sort by

摘要：数据 B 10 store_B_4 A 12 store_A_1 A 14 store_A_2 B 15 store_B_1 B 19 store_B_2 B 30 store_B_3 建表及加载数据 create table if not exists store( sid string, amo 阅读全文

posted @ 2020-08-23 23:29 王昱棋阅读(721) 评论(0) 推荐(0)

hdfs数据写入流程和数据读取流程

摘要： hdfs数据写入：第一步：客户端通过dfs模块向namenade请求：输出目录是否存在、父目录是否存在第二步：namenode通过检查hdfs目录，返回客户端结果第三步：客户端向namenode请求：数据节点（3个）dn1，dn2，dn3 第四步：namenode将数据节点的具体位置返回给客户阅读全文

posted @ 2020-08-23 22:51 王昱棋阅读(1464) 评论(0) 推荐(0)

hive 编写连续N天登录的总人数

摘要： 1、数据文件： 1 2019-07-11 1 1 2019-07-12 1 1 2019-07-13 1 1 2019-07-14 1 1 2019-07-15 1 1 2019-07-16 1 1 2019-07-17 1 1 2019-07-18 1 2 2019-07-11 1 2 2019- 阅读全文

posted @ 2020-08-23 21:49 王昱棋阅读(481) 评论(0) 推荐(0)

hive的常用函数

摘要：地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.rand() 语法: rand(),rand(int seed) 返回值: double 说明:返回一个0到1范围内的随机数。如果指定种子seed，则会等阅读全文

posted @ 2020-08-23 21:34 王昱棋阅读(167) 评论(0) 推荐(0)

mapreduce的过程分析

摘要： map的shuffle过程分为6个步骤 split --> map --> partition --> kvbuffer(--> sort --> spill) -->merge (--> segment列表 )-->file（文件）第一步split（切分数据）通过API接口，接入准备的数据，按阅读全文

posted @ 2020-08-23 21:01 王昱棋阅读(260) 评论(0) 推荐(0)

hive中map与reduce的个数问题

摘要：目的：为了整理自己的思路，基本上都是从大佬那里截取的一：hive的map数量一般情况下，是按照hdfs的数据块大小来决定，默认是128M，也就是被读取的文件整除128M之后的个数，例：128M就是一个map，129M就是两个map 按照1.中的思路，可能会出现一种状况，大量的小文件，会导致大量的阅读全文

posted @ 2020-08-23 18:17 王昱棋阅读(508) 评论(0) 推荐(0)

导航

公告