摘要: 在 Spark SQL 中,对应 HAVING(过滤聚合结果)、专门用于 直接过滤窗口函数结果(比如取排序第 1)的关键词是 QUALIFY(Spark 3.0 及以上版本支持)。 QUALIFY 是窗口函数的 “专用过滤子句”,无需嵌套子查询 / CTE,直接在主查询中写窗口函数条件,语法比传统的 阅读全文
posted @ 2025-11-25 11:19 soccerchen 阅读(0) 评论(0) 推荐(0)
摘要: 前言: 从业近10年,在每家公司都能见到日期维表,不论数仓、报表系统做得如何,数据是否规范,日期维表是简单还是复杂,终归是有一个日期维表的。 恰逢近期在BI工程师的要求下,准备了一个附带每年节假日的日期维表,自己从日期维表的字段设计,到使用python获取数据,到最终数据导入到Hive中,全部实操了 阅读全文
posted @ 2025-11-17 14:43 soccerchen 阅读(0) 评论(0) 推荐(0)
摘要: 搬运工:https://www.cnblogs.com/goloving/p/7001810.html unnest类似炸裂函数,使用起来相当简单 阅读全文
posted @ 2024-02-20 16:36 soccerchen 阅读(142) 评论(0) 推荐(0)
摘要: 前言:就是将一些数仓领域的精华经验,分别用一句话展示出来。 数仓分层千千万,核心三层是进仓、加工、出仓。 开窗函数,可以解决99%的逐条汇总需求。 当有数据量差异时,按维度汇总后比对数据量差异,可以快速确定单点异常还是通盘异常。 数据迁移前,数据资产清单的确定非常重要,及时工具层面可以全部迁入新环境 阅读全文
posted @ 2023-10-09 16:38 soccerchen 阅读(32) 评论(0) 推荐(0)
摘要: 常规用法就不说,说个细节的,有想过炸开后会丢失数据吗? 给个例子,id为1,List_string为[]或者NULL,此时炸完之后,数组是没有数据,而炸裂函数默认是直接关联(inner join),所以原始记录会丢失,如果在lateral view后加上outer就可以做到类似左关联的功能。 阅读全文
posted @ 2023-08-31 16:25 soccerchen 阅读(42) 评论(0) 推荐(0)
摘要: [weixin-python](https://weixin-python.readthedocs.io/zh/latest/login.html) wxauto wxpy 阅读全文
posted @ 2023-08-28 17:42 soccerchen 阅读(42) 评论(0) 推荐(0)
摘要: 最近刚好接到了这样一个需求,就是标题所示的要在报表中展示截止到业务日期时的历史累计值、当月累计值和当日值。 数据首先是处理到这样的模型中:业务日期(biz_date)、当日增量统计值(cnt) SQL如下: select biz_date,--业务日期 cnt,--当日统计值 sum(cnt) ov 阅读全文
posted @ 2023-08-25 11:23 soccerchen 阅读(2157) 评论(0) 推荐(1)
摘要: 标题包括内容直接抄的:https://zhuanlan.zhihu.com/p/78181226 最基本的调用顺序说得很清楚 阅读全文
posted @ 2023-07-31 16:49 soccerchen 阅读(34) 评论(0) 推荐(0)
摘要: 使用SQL执行引擎建表的表,Owner是ALIYUN$开头 使用Dataworks表管理建表,准确的说是将web端的表结构及描述信息同步至Hive的Owner以RAM$开头 阅读全文
posted @ 2023-07-31 10:53 soccerchen 阅读(23) 评论(0) 推荐(0)
摘要: [XDown:抖音视频提取工具](https://xdown.chuangzuoniu.com/) 阅读全文
posted @ 2023-07-25 13:58 soccerchen 阅读(46) 评论(0) 推荐(0)