数据治理实践篇【美团酒旅】

数据治理实践篇【美团酒旅】

1.背景介绍

为什么大家都要做数据治理?

从数据产生、采集、生产、存储、应用到销毀的全过程中,可能在各环节中引入各种问题。初始发展阶段,这些数据问题对我们的影响不大,大家对问题的容忍度比较高。但是,随着业务发展数据质量和稳定性要求提升,并且数据积累得越来越多, 我们对一些数据的精细化要求也越来越高,就会逐渐发现有很多问题需要治理。数据开发过程中会不断引入一些问题,而数据治理就是要不断消除引入的问题,以高质量、高可用、高安全的方式为业务提供数据

image-20220105130244318

1.需要治理哪些问题

image-20220105130328624

  • 质量问题

    • 数仓的及时性、准确性、一致性、规范性和数据应用指标的逻辑致性问题。
  • 成本问题

    • 互联网行业数据膨胀速度非常快,大型互联网公司在大数据基础设施上的成本投入占比非常高,而且随着数据量的增加成本也将继续攀升
  • 安全问题

    • 业务特别关注的用户类数据,一旦泄露,对业务的影响非常大,甚至能影响整个业务的生死
  • 标准化问题

    • 公司业务部门比较多的时候,各业务部门、开发团队的数据标准不一致,在数据打通和整合过程中会出现很多问题
  • 效率问题

    • 在数据开发和数据管理过程中都会遇到一些效率低的问题,很多时候是靠堆人力在做。

2.美团酒旅数据现状

五大类问题

  • 标准化的规范缺失

    • 多个业务线之间的标准化和规范化建设都只是以规范文档的形式存在,每个人的理解不一致
  • 数据质量问题比较多

    • 数据冗余很多
    • 在数据建设过程中很多应用层数据都是烟囱式建设,很多指标口径没有统一的管理规范,数据一致性无法保证。
  • 成本增长非常快

    • 在某些业务线大数据存储和计算资源的机器费用占比已经超过了35%
  • 数据安全的控制

    • 各业务线之间可以共享的数据较多,而且每个业务线没有统一的数据权限管理。
  • 数据管理和运维效率低

2.治理实践

2.1数据治理策略

image-20220105131547203

2.2标准化和组织保障

  • 数据标准化包括三个方面

    • 第一是标准制定,第二是标准执行,第三是在标准制定和执行过程中的组织保障,比如怎么让标准能在数据技术部门、业务部门和相关商业分析部门统一。
  • image-20220105132004095

    • 全链路的数据标准方法,从数据采集、数仓开发、指标管理到数据生命周期管理建立了很多标准,在标准化建立过程中联合组建了个业务部门的数据管理委员会
    • 管理委员会是一个虚拟的组织,主要组成是技术部门和业务部门,技术部门是业务数据的开发团队,业务部门是业务数据的产品团队,

2.3技术体系

2.3.1数据质量

四大问题
  • 数据仓库的综合性比较差,虽然有一些规范文档,但更依赖个人理解去执行
  • 数据一致性问题多,主要表现在数据指标的管理上
  • 数据应用非常多,使用数据的方式包括数据表同步、接口消息推送、OLAP引擎询等
  • 产品非常多,业务数据产品入口有十多个
技术实现方式

数据仓库规范性上进行统一,然后统一指标逻辑,在此之上統一数据服务接口,最后在产品上統一用户产品入口。

image-20220105132628910

  • 数仓建模规范

    • 事前

      • 标准化文档给大家提前理解、宣贯
    • 事中

      • 很多标准化的事项会通过配置化自动约束规范
    • 事后

      • 上线时的检验和上线后每周定期检验,检验数据仓库的建模规范是否符合标准,把不符合标准的及时提示出来、及时改进。

      image-20220105132810905

      • 事前

        • 数据仓库的设计规范

          • 在做一个新业务或模块之前,以文档形式做一些设计规范
        • 开发规范

          • 包括一些开发流程、代码编写规范和注释信息。
      • 事中

        • 模型开发过程中的开发工具

          • 控制模型的基础信息、数仓主题和分层以及ETL代码生成。
        • 命名规范工具

          • 模型、表、字段、指标建了很多一些规范化的系统实现,控制这些命名的标准化。

            image-20220105133059628

        • 上线规则监控工具

          • 上线过程中会监控一些数据规范,还有一些性能监控,有问题会及时发现。
      • 事后

        • 定期监控,生成报告来看每个业务线、每个组、具体每个人的数仓规范性情况。
  • 统一指标管理系统

    • 主要做了流程管理标准化、指标定义标准化和指标使用标准化

    • 系统化分三层,第一层是物理表管理,第二层是模型管理,第三层是指标管理,这些信息在元数据管理中一进行。

      image-20220105133339858

      • 第一步,

        • 统一规范
      • 所有数据应用还能通过这个工具查询数据

        • 具体做法

          • 查询两种数据,一是维度,二是指标。在查询指标时,可能会有一些维度限制条件。
          • 在指标管理模块中通过指定指标定位到数仓模型,了解指标的获取方式(是sum还是count 等)。相应的数仓模型可是能是星型模型、宽表、循环模型,从模型中解析出对应的底层物理表。

      image-20220105133457529

  • 统一数据服务

    数据被很多下游系使用,比如数据产品、业务系统、运营系统、管理系统等。

    下游既要我们提供数据表,还要提供接口

    做了一个统一的数据服务平台,平台目标是提高效率、提高数据准确性、提供数据监控、将整个数据仓库和数据应用链路打通

    • 提供的方式

      • 对于B端应用,提供按需使用,每天提供几万次的调用额度
      • 对于C端,通过推送的方式,比如每天推送一次最新数据。以推和拉两种方式保证服务功能的全面性
    • image-20220105133929002

      • 导入层

      • 存储层

        数据根据不同的使用场景会有很多种不同的存储方式

        • 数据的分类方式

          • 字段类型

            • 文本类( string、char、text等)、数值类(int、fat、 number等)、时间类(data、 timestamp等)
          • 数据结构

          • 描述事物的角度

          • 从数据处理的角度

          • 数据粒度上

          • 更新方式

        根据条件查询一条数据的情况KV最合适,一些对定性条件要求很高的简单汇总用MySQL,一些数据量非常大但频率低的用OLAP引擎。

      • 服务层

        • 存储引擎査询进行一些封装
      • 控制层,

      • 接口层

  • 统一用户产品入口

    • 三大类

      • 管理者和商业分析使用的分析策略产品
      • 业务销售运营用的业务销售数据产品
      • 数据资产管理产

    image-20220105134319374

  • 整体系统架构

    image-20220105134328595

2.3.2数据运营效率

  • 三大目标

    • 找得到、看得懂、用得对。

      image-20220105134815747

    • 具体的实现方式

      • 针对数据使用指南做了一个系统,

        把指标元数据、维度元数据、数据表和各种产品元数据等管理起来

        image-20220105134835752

2.3.3数据成本

  • 美团目前大概的比例是70%的计算成本、20%是存储成本、10%为采集日志

    image-20220105134914516

2.3.4数据安全

image

2.4衡量指标

  • 数据衡量指标体系

    • 总体分为五大类

      • 质量类、成本类、安全、易用性和价值
    • 监控方式

      • 日常监控定期监控(周、月、季度监控)
    • image-20220105134953487

      • PDCA原则

3.未来规划

  • 数据治理分为三个大阶段:被动治理、主动治理、自动治理

    image-20220105135026007

posted @ 2022-01-05 13:53  不会写代码的花生  阅读(397)  评论(0)    收藏  举报