摘要: 拉链表是数据仓库中最优雅、最经典的历史状态存储方案之一。它专为实现 SCD Type 2(缓慢变化维 - 新增行模式) 而设计,通过“拉链式”的时间链条结构,既能大幅节省存储空间,又能完整保留数据的全部历史变化,被广泛应用于 Hive、Spark 等大数据数仓环境中。 一、为什么需要拉链表? 在数据 阅读全文
posted @ 2026-04-08 16:52 GeneJiang 阅读(14) 评论(0) 推荐(0)
摘要: 在数据仓库和商业智能(BI)领域,Ralph Kimball 被誉为“维度建模之父”。他提出的 Kimball 维度建模 方法论,以其简单易懂、高性能、快速落地的特点,成为全球无数企业和数据团队的首选架构。 不同于 Bill Inmon “先建企业级数据仓库,再建数据集市”的自上而下思路,Kimba 阅读全文
posted @ 2026-04-08 13:31 GeneJiang 阅读(18) 评论(0) 推荐(0)
摘要: 在数据管理平台(DMP)中,数据接入环节就像整个流水线的“水龙头”。一旦接入的数据出现问题,后续的标签画像、用户分群、BI 报表乃至 AI 决策都将失去根基。离线接入(MySQL、PG、ClickHouse、Hive 等)和实时接入(Flink、API/SDK)两大场景,是数据工程师最常面对的“战场 阅读全文
posted @ 2026-04-06 21:49 GeneJiang 阅读(11) 评论(0) 推荐(0)
摘要: 在复杂的 ETL 流程中,数据污染和逻辑错误往往隐藏在层层转换、Join 和 UDF 背后,导致 GMV 暴增、用户画像偏移、报表指标对不上等问题。过去几年,我在我司的大规模数据平台上负责 ETL 稳定性,逐步总结出一套“全链路排查与特征分析框架”,并借鉴了 Google、Meta、阿里云等大厂的成 阅读全文
posted @ 2026-04-03 23:04 GeneJiang 阅读(9) 评论(0) 推荐(0)
摘要: 1. 防:资金视角, 做风险识别 事故来源三个方面 技术bug 产品逻辑设计 人为配置错误 识别资产损失风险点 配置阶段:金额、数量、卡劵使用条件等信息是否配置正确? **发放阶段:**卡劵发放是否有超出? **核销阶段:**单笔订单使用卡劵是否有超出?使用组合卡劵是否有超出? **退回阶段:**订 阅读全文
posted @ 2021-10-14 15:06 GeneJiang 阅读(237) 评论(0) 推荐(0)
摘要: CPM (Cost Per Mille):每千次展示花费成本 广告每展现给一千个人所需花费的成本。按CPM计费模式的广告,只看展现量,按展现量收费,不管点击、下载、注册什么的。一般情况下,网络广告中,视频贴片、门户banner等非常优质的广告位通常采用CPM收费模式。 CPC (Cost Per C 阅读全文
posted @ 2021-10-10 15:00 GeneJiang 阅读(1475) 评论(0) 推荐(0)
摘要: 工作原理 MVC模式的工作机制为: 模型提供数据和业务逻辑(如何存储和查询信息), 视图负责数据的展示(如何呈现), 而控制器是两者之间的粘合剂,根据用户要求的呈现方式来协调模型和视图。 有趣的是,视图和控制器依赖于模型,而不是反过来。这主要是因为用户所关心的是数据。模型是可以独立工作的,这是MVC 阅读全文
posted @ 2020-08-12 17:04 GeneJiang 阅读(359) 评论(0) 推荐(0)
摘要: Jupyter NoteBook 的快捷键使用指南 [TOC] Jupyter Notebook 有两种键盘输入模式。即命令模式和编辑模式,这与 Vim 有些类似。在编辑模式下,可以往单元中键入代码或文本,此时单元格被绿色的框线包围,且命令模式下的快捷键不生效。在命令模式下,可以用快捷键命令运行单元 阅读全文
posted @ 2019-11-09 19:00 GeneJiang 阅读(323) 评论(0) 推荐(0)
摘要: Hive常用函数 [TOC] cast函数 CAST函数:显式的将一个类型的数据转换成另一个数据类型。 语法为: map函数 MAP:MAP包含key value键值对,可以通过key来访问元素。比如”userlist”是一个map类型,其中username是key,password是value;那 阅读全文
posted @ 2019-11-09 14:01 GeneJiang 阅读(398) 评论(0) 推荐(0)
摘要: 简介 Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3种集合数据类型 基本数据类型 Hive支持多种不同长度的整型和浮点型数据类型,支持布尔类型,也支持无长度限制的字符串类型。Hive v0.8.0版本中增加了时间戳数据类型和二进制数组数据类型。 表1: 基本数据 阅读全文
posted @ 2019-07-16 17:08 GeneJiang 阅读(215) 评论(0) 推荐(0)