关于数据治理的一些个人项目经历

项目

内容

经验

理论

报表开发治理

1)报表冒烟囱式无序开发,做加法

2)报表整合,做乘法 和 减法

3)常用定义说明

对于做过报表的人来说,数据治理肯定是深有体会。

1)一个报表建设周期里,刚开始的阶段,对整体的数据表/业务逻辑不熟,有些坑没发现。都是急急忙忙来一个需求,匆忙开发。一个“概念”每个人搞一种提取方法。

2)很多时候,开发人员以报表数量作为考核指标,也有新增冲动

3)但一旦建得比较多,需要分析问题,一对报表,2份数对不上,那就完了。做报表最头疼的是查询对数。没价值,工作量大

=>这种根源就是 数据治理没做好。数据来源多,定义不同,口径多;后期报表相互依赖。

 

-- 通过指标体系来统一管理,业务口径,计算逻辑。(需求-开发-审核-发布)。

 

有历史包袱,不能直接从0-1建立。所以指标之间会有一些不一致。

 

 

 

 

                  

数据质量检查(自动化)

1)QC方法及内容

2)QC Dashboard监控数据产品!

1)做过一个QC的 Tool,对项目涉及到的数据源,中间过程的汇总宽表进行异常检查,标记上 数据集名称,检查的字段。 自动将观察数,缺失值,最大,最小,中位数列出。每次都记录添加进去。

并且发邮件到个人邮箱

 

2)专门的一个 CDO数据办公室,他们开发了一个DQ - 数据质量 dashboard 仪表板,将所有管理的数据集市。根据主题,表,列出来。 也是将完整度,缺失值,最大最小中位,再列出历史上趋势。

 

还可以对主题,表,字段定制,挑选出来。

 

  

  1. 建模特征库的构建和数据质量检查

1)PSI -> 看重点特征的稳定性,缺失率

1)对于建模的特征库,在建模模型端监控;

用PSI这个指标看稳定性。字符型直接用,数值性分箱;

 

 

                  

  1. 从数据采集到 RDL 到 CDL 数据仓库.
  2. MPO / VC / Travel Card

1)基于业务需求进行发起 ,按需提需求

2)BRD -> DRS (request) -> DIS (ingestion)

3)  对系统IT就把数据采集以batch批量发送过来的数,进行pipeline验证

3)RDL层存起来。再经过转化处理,构建面向分析的 CDL层。我理解这里的 CDL就是数仓.

 

1)拿/扩展业务需求,设计分析的体系

2)审查 业务系统端能采集到的几十种表格,将业务需求转化为数据需求 DRS,反复讨论可能性。不涉及埋点!

3)提交后用数仓团队提交 DIS,给业务系统IT。

4)构建pipeline,验证过程数据的质量/完整性/准确性/规范性/唯一性/业务逻辑

5)构建 一个分析产品 Data studio dashboard分析产品

 

1) 从单纯的对数据pipeline进行 验证!,一是RDL验证,二是CDL层面的验证。看数据是否丢失;

 

2)从分析的角度,看是否满足业务分析的需求。

数据的:

准确性、完整性、一致性、及时性、有效性和唯一性。

                  

  1. 数据定义字典和口径

1)构建每个数据集清晰的字段定义,更新方式

2)血缘关系

3)业务含义,最好有案例

数据治理首先接触到的,就是数据定义字典,跟口径。去哪个表拿,拿哪个字段,哪些条件跟 取什么值代表啥。

 

数据集市很多数据是衍生的,把血缘关系/衍生关系列清楚。

 

汇丰:只有一个好几个大型的 excel表格 Teradata列了几百个,用了10多年了。还有自建的 数据集市,存储了 字段逻辑。 组织架构调来调去,专家跑光,没法维护了

美团数据治理实践,把所有的表,按主题,按产品全列了。

 

搜索任何一个字段,就能把所有存在这个字段的表列出来,表存的啥怎么存,以及字段的血缘关系,哪里来,哪些下游集市表使用了。

 

网易有数也是一样!

 

AliCloud上云,Maxcompute 数仓,有同步技术。

  1. 综合业务逻辑维护和增删改

1)业务核心指标报表构建

2)常用逻辑维护

3)如何应对逻辑变动

有基础的数据定义字典很多时候还不能直接用。

在常用业务逻辑和口径 ->到具体的字典还有距离。

 

比如我们最典型的一个消费分类:零售,账单支付,分期,取现,八达通等。需要5-6个变量甚至更多综合给出。

===>个人叫 综合业务逻辑!

 

                  

  1. 数据仓库构建模型

1)MPO

2)新卡

维度建模的 案例 - 网易新媒体(done)

维度建模

  1. 产品数据体系的 构建方法论 ?

(done)

1)构建 信用卡类指标体系

2)网易云音乐构建

1)以信用卡portfolio DB为例来看

2)

1) 业务线分块

2)根据 OSM, AARRR 依据,UJM

3)VC卡就是业务过程建模

  1. 埋点上报

神策;

 

  1. 数据治理,治啥 ?元数据

元数据,衍生数据

 

 

  1. 数据安全及管理制度(人为机制)

1) 原则:谁产生,谁负责 ?

2)

 

 

posted @ 2021-11-26 01:30  Leo叶  阅读(474)  评论(0)    收藏  举报