随笔分类 -  数仓相关

数仓建设过程中遇到的问题
数据倾斜时学习hive sql执行计划
摘要:Hive sql的一段执行计划 STAGE DEPENDENCIES: Stage-1 is a root stage Stage-6 depends on stages: Stage-1, Stage-3 , consists of Stage-7, Stage-8, Stage-2 Stage- 阅读全文
posted @ 2021-03-10 22:41 jeasonchen001 阅读(894) 评论(0) 推荐(0)
hive自定义udf和udaf
摘要:hive自定义udf和udaf 自定义udf 继承UDF类,在类里面自定定义evaluate方法,参数和返回值都是自己定义,同时一个自定义udf中可以定义多个重载的evaluate方法,根据传入参数的个数和类型来自动调用对应的evaluate方法。 package whut; import org. 阅读全文
posted @ 2020-12-09 23:43 jeasonchen001 阅读(280) 评论(0) 推荐(0)
用户维度表(拉链表的方式存储)
摘要:数据量不小,不能全量存储, 数据缓慢变化的维度数据 拉链表的建表语句--全量表 通过有效起始时间<=时间<=有效结束时间来获取维度的全量切片数据 建表语句 drop table if exists dwd_dim_user_info_his; create external table dwd_di 阅读全文
posted @ 2020-12-06 15:45 jeasonchen001 阅读(821) 评论(0) 推荐(0)
订单事实表的创建(累积型快照事实表)
摘要:描述的是订单各个阶段的状态 用户 地区 时间 商品 优惠券 活动 度量值 订单 √ √ √ √ 一次 订单的生命周期 下单时间=》支付时间=》取消时间=》完成时间=》退款时间=》退款完成时间 订单事实表的创建 --订单事实表 增量表, 当日只存储create_time为当日的数据, 所以create 阅读全文
posted @ 2020-12-06 13:20 jeasonchen001 阅读(1096) 评论(0) 推荐(0)
优惠券使用表(累积型快照事实表案例)
摘要:1.1 ods层的数据(增量数据,将新增和修改的数据导入ods) sqoop语法是每天将get_time 或者using_time或者used_time为当前分区时间,或者优惠券状态发生改变的数据导入ods: drop table if exists ods_coupon_use; create e 阅读全文
posted @ 2020-11-29 18:49 jeasonchen001 阅读(826) 评论(0) 推荐(0)
订单明细表中分摊金额的问题
摘要:经典场景: 订单明细表中分摊金额的问题 ods层数据: --ods层的订单详情表 增量表 drop table if exists ods_order_detail; create external table ods_order_detail( `id` string COMMENT '编号', 阅读全文
posted @ 2020-11-29 18:16 jeasonchen001 阅读(846) 评论(0) 推荐(0)
hive建外部表时location修改问题
摘要:hive外部表时location修改问题 一、有一次建外部表的时候,忘记设置location create external table test.ads_education_course_feature_dm ( course_id string comment '课程id', course_na 阅读全文
posted @ 2020-11-28 23:31 jeasonchen001 阅读(2934) 评论(0) 推荐(0)