Hive - 随笔分类 - foolangirl

Hive学习小记-（17）inline(array(struct))与explode

摘要：inline 前情提要：inline无法作用于map,array(map) 关于inline：在横表纵表转换一节已经试过，map无法使用inline；在这里将map转成array，发现还是无法用inline，看来inline只适用array(struct)格式； # map转array，还是不能用阅读全文

posted @ 2021-01-25 20:18 foolangirl 阅读(2363) 评论(0) 推荐(0)

Hive学习小记-（16）hive加载解析json文件

摘要：json文件hive解析落表不同于Hive学习小记-（5）表字段变动频繁时用json格式那种简单存成string再解析，参考： https://www.cnblogs.com/30go/p/8328869.html https://blog.csdn.net/lsr40/article/deta 阅读全文

posted @ 2021-01-25 19:04 foolangirl 阅读(1020) 评论(0) 推荐(0)

Hive学习小记-（15）transform函数

摘要：可以参考的一些帖子： https://www.imooc.com/article/50825 https://blog.csdn.net/lidongmeng0213/article/details/110878902 https://www.cnblogs.com/songweideboke/p/ 阅读全文

posted @ 2021-01-24 15:12 foolangirl 阅读(740) 评论(0) 推荐(0)

Hive学习小记-（14）如何写SQL求出中位数平均数和众数（count 之外的方法）

摘要：平均数中位数众数平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向，测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点，能够从不同的角度提供信息。平均数特点：计算用到所有的数据，它能够充分利用数据提供的信息，它具有优秀的阅读全文

posted @ 2021-01-23 19:58 foolangirl 阅读(10911) 评论(0) 推荐(0)

Hive学习小记-（13）表字段变动频繁时用map格式

摘要：参考：https://i.cnblogs.com/posts/edit;postId=14193982沿用Hive学习小记-（5）表字段变动频繁时用json格式一篇场景：可见直接存成map类型比string类型的json串方便很多：阅读全文

posted @ 2021-01-12 21:25 foolangirl 阅读(142) 评论(0) 推荐(0)

Hive学习小记-（12）横表与纵表的互相转换***

摘要：需求说明：这是一个横表转纵表与纵表转横表的故事，有点类似行列转换行转列：一个字段的多行数据合进一个列,通常可用collect_set+concat_ws；列转行：一个字段的一列数据拆到多个行，通常用explode 横表转纵表： 1.原横表数据： cust_id1,jijin_bal,baoxian 阅读全文

posted @ 2021-01-11 22:16 foolangirl 阅读(2149) 评论(0) 推荐(0)

hive优化3-map\reduce\shuffle\output等多阶段参数调优

摘要：map阶段 1.hive.vectorized.execution.enabled 默认false. map方法逐行处理数据，开启之后hive构造一个批量输入的数组，一次处理1万条数据。(数据量不大，或计算不复杂是不是没必要开启？ MapReduce只支持map端向量化执行，TEZ和SPARK支持m 阅读全文

posted @ 2021-01-10 15:34 foolangirl 阅读(2252) 评论(0) 推荐(0)

Hive学习小记-（11）left semi join

摘要：转载： https://blog.csdn.net/HappyRocking/article/details/79885071?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-2.control&depth_ 阅读全文

posted @ 2021-01-03 11:02 foolangirl 阅读(383) 评论(0) 推荐(0)

Hive学习小记-（10）hive增量下发的变化流水表如何做update操作

摘要：场景有一张明细事务级别的流水表，主键是事件流水号srl_id, 该表每天采集当天新增及变化的事件下发，上游下发文件分区日期prt_dt. 存在这样的情况，某个流水号srl_id在20210101发生，会在prt_dt=20200101的分区首次下发，若之后在20200105发生改变，在prt_dt 阅读全文

posted @ 2021-01-02 15:19 foolangirl 阅读(1291) 评论(0) 推荐(0)

Hive学习小记-（9）hive分区表加字段**

摘要：转自：https://blog.csdn.net/lxpbs8851/article/details/17118841 情况：表: test_table 已有字段 (a,b,c) 已有分区: day_key=20131201 day_key=20131202 day_key=20131203 需求阅读全文

posted @ 2020-12-31 20:23 foolangirl 阅读(1183) 评论(0) 推荐(0)

Hive学习小记-（8）hive查询除某列外所有数据(正则表达式查询)

摘要：转自：https://blog.csdn.net/cuichunchi/article/details/109999526 需要使用hive的正则表达式，需要设置hive的参数，在这种配置中，反引号名成被解释为正则表达式： set hive.support.quoted.identifiers=no 阅读全文

posted @ 2020-12-30 20:04 foolangirl 阅读(1638) 评论(0) 推荐(0)

Hive学习小记-（7）group by原理&tips

摘要：原理参考：https://blog.csdn.net/u013668852/article/details/79866931 group by多字段 select rank, isonline, count(*) from city group by rank, isonline; 将GroupB 阅读全文

posted @ 2020-12-29 23:59 foolangirl 阅读(875) 评论(0) 推荐(0)

Hive学习小记-（2）宏命令

摘要：宏命令宏命令是在HQL中调用其他函数和操作符来定义函数的功能。比较适合做分析时为一些临时需要用到很多次的繁琐表达式封装一下，取个简短点的别名以便重复调用例子例子 -- 宏只能是临时宏，只在本次回话中可见、有效，需要将宏脚本放在SQL脚本的头部 -- 一个根据生日推算星座的宏命令 DROP TEM 阅读全文

posted @ 2020-12-28 20:10 foolangirl 阅读(256) 评论(0) 推荐(0)

Hive学习小记-（6）collect_set与笛卡尔积使用

摘要：场景有两张表，一张活动清单表actv_evt：记录了所有的活动，包括活动id，活动名称及活动相关配置信息；一张客户活动参与表cust_actv，记录了客户参与活动信息。 cust_actv中参与了活动的客户定义为活跃客户，现在公司想对活跃客户做推广，将没参与过的活动推送给他们举例：共有actv1 阅读全文

posted @ 2020-12-27 19:58 foolangirl 阅读(1521) 评论(0) 推荐(0)

Hive学习小记-（5）表字段变动频繁时用json格式

摘要：建表场景 create test_json( id int ,student string ) row format delimited fields terminated by ' '; -- 假数据： 1 {"name":"zhangsan","age":17,"sex":"F"} --这里一定阅读全文

posted @ 2020-12-26 21:58 foolangirl 阅读(281) 评论(0) 推荐(0)

Hive学习小记-（4）带复杂集合类型及指定多分隔符hive建表

摘要：带集合类型建表 Hive上创建测试表test create table test( name string, friends array<string>, children map<string, int>, address struct<street:string, city:string> ) 阅读全文

posted @ 2020-12-26 19:43 foolangirl 阅读(907) 评论(0) 推荐(0)

hive优化2-hive的Input阶段：inputsplit与map数量、小文件

摘要：1.场景生成太多Map时，计算任务会耗费很多时间在Map的启动上，这时候需要对Map数进行控制。 2.原理单独配置参数：set mapred.map.tasks=tasknum时，可能无法真正的起到调节效果，原因如下： 1)默认情况Map个数defaultNum=目标数据文件总大小totalSi 阅读全文

posted @ 2020-12-19 17:45 foolangirl 阅读(664) 评论(0) 推荐(0)

hive优化1-列转行

摘要：数据需求说明： table1的数据是客户id，基金差额，保险差额，理财差额，。。。 create table youhua1( -> custid int -> ,jijin_change float -> ,baoxian_change float -> ,cunkuan_change floa 阅读全文

posted @ 2020-12-16 23:51 foolangirl 阅读(901) 评论(0) 推荐(0)

x_lulu

随笔分类 - Hive

公告