数据治理实践篇【美团酒旅】
数据治理实践篇【美团酒旅】
1.背景介绍
为什么大家都要做数据治理?
从数据产生、采集、生产、存储、应用到销毀的全过程中,可能在各环节中引入各种问题。初始发展阶段,这些数据问题对我们的影响不大,大家对问题的容忍度比较高。但是,随着业务发展数据质量和稳定性要求提升,并且数据积累得越来越多, 我们对一些数据的精细化要求也越来越高,就会逐渐发现有很多问题需要治理。数据开发过程中会不断引入一些问题,而数据治理就是要不断消除引入的问题,以高质量、高可用、高安全的方式为业务提供数据

1.需要治理哪些问题

-
质量问题
- 数仓的
及时性、准确性、一致性、规范性和数据应用指标的逻辑致性问题。
- 数仓的
-
成本问题
- 互联网行业数据膨胀速度非常快,大型互联网公司在大数据基础设施上的成本投入占比非常高,而且随着数据量的增加成本也将继续攀升
-
安全问题
- 业务特别关注的用户类数据,一旦
泄露,对业务的影响非常大,甚至能影响整个业务的生死
- 业务特别关注的用户类数据,一旦
-
标准化问题
- 公司业务部门比较多的时候,各业务部门、开发团队的
数据标准不一致,在数据打通和整合过程中会出现很多问题
- 公司业务部门比较多的时候,各业务部门、开发团队的
-
效率问题
- 在数据开发和数据管理过程中都会遇到一些效率低的问题,很多时候是靠
堆人力在做。
- 在数据开发和数据管理过程中都会遇到一些效率低的问题,很多时候是靠
2.美团酒旅数据现状
五大类问题
-
标准化的
规范缺失- 多个业务线之间的标准化和规范化建设都只是以
规范文档的形式存在,每个人的理解不一致
- 多个业务线之间的标准化和规范化建设都只是以
-
数据
质量问题比较多- 数据冗余很多
- 在数据建设过程中很多应用层数据都是
烟囱式建设,很多指标口径没有统一的管理规范,数据一致性无法保证。
-
成本增长非常快
- 在某些业务线大数据存储和计算资源的机器费用占比已经超过了35%
-
数据安全的控制
- 各业务线之间可以共享的数据较多,而且每个业务线没有统一的数据权限管理。
-
数据管理和运维效率低
2.治理实践
2.1数据治理策略

2.2标准化和组织保障
-
数据标准化包括三个方面
- 第一是
标准制定,第二是标准执行,第三是在标准制定和执行过程中的组织保障,比如怎么让标准能在数据技术部门、业务部门和相关商业分析部门统一。
- 第一是
-

- 全链路的数据标准方法,从数据采集、数仓开发、指标管理到数据生命周期管理建立了很多标准,在标准化建立过程中联合组建了个业务部门的
数据管理委员会。 - 管理委员会是一个虚拟的组织,主要组成是技术部门和业务部门,技术部门是业务数据的开发团队,业务部门是业务数据的产品团队,
- 全链路的数据标准方法,从数据采集、数仓开发、指标管理到数据生命周期管理建立了很多标准,在标准化建立过程中联合组建了个业务部门的
2.3技术体系
2.3.1数据质量
四大问题
- 数据仓库的综合性比较差,虽然有一些规范文档,但更依赖个人理解去执行
- 数据一致性问题多,主要表现在数据指标的管理上
- 数据应用非常多,使用数据的方式包括数据表同步、接口消息推送、OLAP引擎询等
- 产品非常多,业务数据产品入口有十多个
技术实现方式
数据仓库规范性上进行统一,然后统一指标逻辑,在此之上統一数据服务接口,最后在产品上統一用户产品入口。

-
数仓建模规范
-
事前
- 有
标准化文档给大家提前理解、宣贯
- 有
-
事中
- 很多标准化的事项会通过
配置化自动约束规范
- 很多标准化的事项会通过
-
事后
- 上线时的
检验和上线后每周定期检验,检验数据仓库的建模规范是否符合标准,把不符合标准的及时提示出来、及时改进。

-
事前
-
数据仓库的
设计规范- 在做一个新业务或模块之前,以文档形式做一些设计规范
-
开发规范- 包括一些
开发流程、代码编写规范和注释信息。
- 包括一些
-
-
事中
-
模型开发过程中的开发工具
- 控制模型的基础信息、数仓主题和分层以及ETL代码生成。
-
命名规范工具
-
模型、表、字段、指标建了很多一些规范化的系统实现,控制这些命名的标准化。

-
-
上线
规则监控工具- 上线过程中会监控一些数据规范,还有一些性能监控,有问题会及时发现。
-
-
事后
- 定期监控,生成报告来看每个
业务线、每个组、具体每个人的数仓规范性情况。
- 定期监控,生成报告来看每个
- 上线时的
-
-
统一指标管理系统
-
主要做了
流程管理标准化、指标定义标准化和指标使用标准化 -
系统化分三层,第一层是
物理表管理,第二层是模型管理,第三层是指标管理,这些信息在元数据管理中一进行。
-
第一步,
- 统一规范
-
所有数据应用还能通过这个工具查询数据
-
具体做法
- 查询两种数据,一是
维度,二是指标。在查询指标时,可能会有一些维度限制条件。 - 在指标管理模块中通过
指定指标定位到数仓模型,了解指标的获取方式(是sum还是count 等)。相应的数仓模型可是能是星型模型、宽表、循环模型,从模型中解析出对应的底层物理表。
- 查询两种数据,一是
-

-
-
-
统一数据服务
数据被很多下游系使用,比如
数据产品、业务系统、运营系统、管理系统等。下游既要我们提供数据表,还要提供接口
做了一个统一的数据服务平台,平台目标是提高效率、提高数据准确性、提供数据监控、将整个数据仓库和数据应用链路打通
-
提供的方式
- 对于
B端应用,提供按需使用,每天提供几万次的调用额度 - 对于
C端,通过推送的方式,比如每天推送一次最新数据。以推和拉两种方式保证服务功能的全面性
- 对于
-

-
导入层
-
存储层
数据根据不同的使用场景会有很多种不同的存储方式
-
数据的分类方式
-
字段类型
- 文本类( string、char、text等)、数值类(int、fat、 number等)、时间类(data、 timestamp等)
-
数据结构
-
描述事物的角度
-
从数据处理的角度
-
数据粒度上
-
更新方式
-
根据
条件查询一条数据的情况KV最合适,一些对定性条件要求很高的简单汇总用MySQL,一些数据量非常大但频率低的用OLAP引擎。 -
-
服务层
- 存储引擎査询进行一些封装
-
控制层,
-
接口层
-
-
-
统一用户产品入口
-
三大类
- 管理者和商业分析使用的
分析策略产品 - 业务销售运营用的
业务销售数据产品 - 数据资产管理产
- 管理者和商业分析使用的

-
-
整体系统架构

2.3.2数据运营效率
-
三大目标
-
找得到、看得懂、用得对。

-
具体的实现方式
-
针对数据使用指南做了一个系统,
把指标元数据、维度元数据、数据表和各种产品元数据等管理起来

-
-
2.3.3数据成本
-
美团目前大概的比例是70%的计算成本、20%是存储成本、10%为采集日志

2.3.4数据安全

2.4衡量指标
-
数据衡量指标体系
-
总体分为五大类
质量类、成本类、安全、易用性和价值
-
监控方式
日常监控和定期监控(周、月、季度监控)
-

- PDCA原则
-
3.未来规划
-
数据治理分为三个大阶段:
被动治理、主动治理、自动治理。

浙公网安备 33010602011771号