随笔分类 -  Hive

摘要:inline 前情提要:inline无法作用于map,array(map) 关于inline:在横表纵表转换一节已经试过,map无法使用inline; 在这里将map转成array,发现还是无法用inline,看来inline只适用array(struct)格式; # map转array,还是不能用 阅读全文
posted @ 2021-01-25 20:18 foolangirl 阅读(2311) 评论(0) 推荐(0)
摘要:json文件hive解析落表 不同于Hive学习小记-(5)表字段变动频繁时用json格式 那种简单存成string再解析,参考: https://www.cnblogs.com/30go/p/8328869.html https://blog.csdn.net/lsr40/article/deta 阅读全文
posted @ 2021-01-25 19:04 foolangirl 阅读(999) 评论(0) 推荐(0)
摘要:可以参考的一些帖子: https://www.imooc.com/article/50825 https://blog.csdn.net/lidongmeng0213/article/details/110878902 https://www.cnblogs.com/songweideboke/p/ 阅读全文
posted @ 2021-01-24 15:12 foolangirl 阅读(733) 评论(0) 推荐(0)
摘要:平均数中位数众数 平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点,能够从不同的角度提供信息。 平均数 特点:计算用到所有的数据,它能够充分利用数据提供的信息,它具有优秀的 阅读全文
posted @ 2021-01-23 19:58 foolangirl 阅读(10832) 评论(0) 推荐(0)
摘要:参考:https://i.cnblogs.com/posts/edit;postId=14193982沿用Hive学习小记-(5)表字段变动频繁时用json格式一篇场景: 可见直接存成map类型比string类型的json串方便很多: 阅读全文
posted @ 2021-01-12 21:25 foolangirl 阅读(134) 评论(0) 推荐(0)
摘要:需求说明:这是一个横表转纵表与纵表转横表的故事,有点类似行列转换 行转列:一个字段的多行数据合进一个列,通常可用collect_set+concat_ws;列转行:一个字段的一列数据拆到多个行,通常用explode 横表转纵表: 1.原横表数据: cust_id1,jijin_bal,baoxian 阅读全文
posted @ 2021-01-11 22:16 foolangirl 阅读(2092) 评论(0) 推荐(0)
摘要:map阶段 1.hive.vectorized.execution.enabled 默认false. map方法逐行处理数据,开启之后hive构造一个批量输入的数组,一次处理1万条数据。(数据量不大,或计算不复杂是不是没必要开启? MapReduce只支持map端向量化执行,TEZ和SPARK支持m 阅读全文
posted @ 2021-01-10 15:34 foolangirl 阅读(2196) 评论(0) 推荐(0)
摘要:转载: https://blog.csdn.net/HappyRocking/article/details/79885071?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-2.control&depth_ 阅读全文
posted @ 2021-01-03 11:02 foolangirl 阅读(371) 评论(0) 推荐(0)
摘要:场景 有一张明细事务级别的流水表,主键是事件流水号srl_id, 该表每天采集当天新增及变化的事件下发,上游下发文件分区日期prt_dt. 存在这样的情况,某个流水号srl_id在20210101发生,会在prt_dt=20200101的分区首次下发,若之后在20200105发生改变,在prt_dt 阅读全文
posted @ 2021-01-02 15:19 foolangirl 阅读(1251) 评论(0) 推荐(0)
摘要:转自:https://blog.csdn.net/lxpbs8851/article/details/17118841 情况: 表: test_table 已有字段 (a,b,c) 已有分区: day_key=20131201 day_key=20131202 day_key=20131203 需求 阅读全文
posted @ 2020-12-31 20:23 foolangirl 阅读(1127) 评论(0) 推荐(0)
摘要:转自:https://blog.csdn.net/cuichunchi/article/details/109999526 需要使用hive的正则表达式,需要设置hive的参数,在这种配置中,反引号名成被解释为正则表达式: set hive.support.quoted.identifiers=no 阅读全文
posted @ 2020-12-30 20:04 foolangirl 阅读(1592) 评论(0) 推荐(0)
摘要:原理 参考:https://blog.csdn.net/u013668852/article/details/79866931 group by多字段 select rank, isonline, count(*) from city group by rank, isonline; 将GroupB 阅读全文
posted @ 2020-12-29 23:59 foolangirl 阅读(841) 评论(0) 推荐(0)
摘要:宏命令 宏命令是在HQL中调用其他函数和操作符来定义函数的功能。比较适合做分析时为一些临时需要用到很多次的繁琐表达式封装一下,取个简短点的别名以便重复调用例子 例子 -- 宏只能是临时宏,只在本次回话中可见、有效,需要将宏脚本放在SQL脚本的头部 -- 一个根据生日推算星座的宏命令 DROP TEM 阅读全文
posted @ 2020-12-28 20:10 foolangirl 阅读(239) 评论(0) 推荐(0)
摘要:场景 有两张表,一张活动清单表actv_evt:记录了所有的活动,包括活动id,活动名称及活动相关配置信息;一张客户活动参与表cust_actv,记录了客户参与活动信息。 cust_actv中参与了活动的客户定义为活跃客户,现在公司想对活跃客户做推广,将没参与过的活动推送给他们 举例:共有actv1 阅读全文
posted @ 2020-12-27 19:58 foolangirl 阅读(1364) 评论(0) 推荐(0)
摘要:建表场景 create test_json( id int ,student string ) row format delimited fields terminated by ' '; -- 假数据: 1 {"name":"zhangsan","age":17,"sex":"F"} --这里一定 阅读全文
posted @ 2020-12-26 21:58 foolangirl 阅读(247) 评论(0) 推荐(0)
摘要:带集合类型建表 Hive上创建测试表test create table test( name string, friends array<string>, children map<string, int>, address struct<street:string, city:string> ) 阅读全文
posted @ 2020-12-26 19:43 foolangirl 阅读(890) 评论(0) 推荐(0)
摘要:1.场景 生成太多Map时,计算任务会耗费很多时间在Map的启动上,这时候需要对Map数进行控制。 2.原理 单独配置参数:set mapred.map.tasks=tasknum时,可能无法真正的起到调节效果,原因如下: 1)默认情况Map个数defaultNum=目标数据文件总大小totalSi 阅读全文
posted @ 2020-12-19 17:45 foolangirl 阅读(632) 评论(0) 推荐(0)
摘要:数据需求说明: table1的数据是 客户id,基金差额,保险差额,理财差额,。。。 create table youhua1( -> custid int -> ,jijin_change float -> ,baoxian_change float -> ,cunkuan_change floa 阅读全文
posted @ 2020-12-16 23:51 foolangirl 阅读(868) 评论(0) 推荐(0)