关于数据治理的一些个人项目经历
|
项目 |
内容 |
经验 |
理论 |
|
报表开发治理 |
1)报表冒烟囱式无序开发,做加法 2)报表整合,做乘法 和 减法 3)常用定义说明 |
对于做过报表的人来说,数据治理肯定是深有体会。 1)一个报表建设周期里,刚开始的阶段,对整体的数据表/业务逻辑不熟,有些坑没发现。都是急急忙忙来一个需求,匆忙开发。一个“概念”每个人搞一种提取方法。 2)很多时候,开发人员以报表数量作为考核指标,也有新增冲动 3)但一旦建得比较多,需要分析问题,一对报表,2份数对不上,那就完了。做报表最头疼的是查询对数。没价值,工作量大 |
=>这种根源就是 数据治理没做好。数据来源多,定义不同,口径多;后期报表相互依赖。
-- 通过指标体系来统一管理,业务口径,计算逻辑。(需求-开发-审核-发布)。
有历史包袱,不能直接从0-1建立。所以指标之间会有一些不一致。
|
|
数据质量检查(自动化) |
1)QC方法及内容 2)QC Dashboard监控数据产品! |
1)做过一个QC的 Tool,对项目涉及到的数据源,中间过程的汇总宽表进行异常检查,标记上 数据集名称,检查的字段。 自动将观察数,缺失值,最大,最小,中位数列出。每次都记录添加进去。 并且发邮件到个人邮箱
2)专门的一个 CDO数据办公室,他们开发了一个DQ - 数据质量 dashboard 仪表板,将所有管理的数据集市。根据主题,表,列出来。 也是将完整度,缺失值,最大最小中位,再列出历史上趋势。
还可以对主题,表,字段定制,挑选出来。 |
|
|
1)PSI -> 看重点特征的稳定性,缺失率 |
1)对于建模的特征库,在建模模型端监控; 用PSI这个指标看稳定性。字符型直接用,数值性分箱; |
|
|
1)基于业务需求进行发起 ,按需提需求 2)BRD -> DRS (request) -> DIS (ingestion) 3) 对系统IT就把数据采集以batch批量发送过来的数,进行pipeline验证 3)RDL层存起来。再经过转化处理,构建面向分析的 CDL层。我理解这里的 CDL就是数仓.
|
1) 从单纯的对数据pipeline进行 验证!,一是RDL验证,二是CDL层面的验证。看数据是否丢失;
2)从分析的角度,看是否满足业务分析的需求。 |
数据的: 准确性、完整性、一致性、及时性、有效性和唯一性。 |
|
1)构建每个数据集清晰的字段定义,更新方式 2)血缘关系 3)业务含义,最好有案例 |
数据治理首先接触到的,就是数据定义字典,跟口径。去哪个表拿,拿哪个字段,哪些条件跟 取什么值代表啥。
数据集市很多数据是衍生的,把血缘关系/衍生关系列清楚。
汇丰:只有一个好几个大型的 excel表格 Teradata列了几百个,用了10多年了。还有自建的 数据集市,存储了 字段逻辑。 组织架构调来调去,专家跑光,没法维护了 |
美团数据治理实践,把所有的表,按主题,按产品全列了。
搜索任何一个字段,就能把所有存在这个字段的表列出来,表存的啥怎么存,以及字段的血缘关系,哪里来,哪些下游集市表使用了。
网易有数也是一样!
AliCloud上云,Maxcompute 数仓,有同步技术。 |
|
1)业务核心指标报表构建 2)常用逻辑维护 3)如何应对逻辑变动 |
有基础的数据定义字典很多时候还不能直接用。 在常用业务逻辑和口径 ->到具体的字典还有距离。
比如我们最典型的一个消费分类:零售,账单支付,分期,取现,八达通等。需要5-6个变量甚至更多综合给出。 ===>个人叫 综合业务逻辑! |
|
|
1)MPO 2)新卡 |
维度建模的 案例 - 网易新媒体(done) |
维度建模 |
(done) |
1)构建 信用卡类指标体系 2)网易云音乐构建 |
1)以信用卡portfolio DB为例来看 2) |
1) 业务线分块 2)根据 OSM, AARRR 依据,UJM 3)VC卡就是业务过程建模 |
|
无 |
神策; |
|
|
元数据,衍生数据 |
|
|
|
1) 原则:谁产生,谁负责 ? 2) |
|
|

浙公网安备 33010602011771号