博客园  :: 首页  :: 联系 :: 管理

三、阿里数据中台

Posted on 2022-11-17 09:22  天戈朱  阅读(3218)  评论(0编辑  收藏  举报

产品:Dataphin(智能数据构建与管理平台)

阿里数据中台全景图:


  •   

阿里的数据中台主要由四个部分组成:数据资产管理IPaaS数据中台DaaS数据研发平台IPaaS计算与存储平台IaaS

(1)数据资产管理IPaaS

数据资产管理其核心是基于元数据管理技术实现数据资产的“可看、可找、可用”,主要提供资产地图、资产分析、资产管理、资产应用、资产运营等功能。

  • 资产地图:通过数据地图让数据管理和使用者,清楚的知道企业都有哪些数据,这些数据存在什么地方,数据被谁管理,如何获取等等;
  • 资产分析:是利用BI技术对数据资产进行统计分析,并提供可视化服务,例如:按主题、类型的统计数据资产数量、数据资产的质量和数据资产的使用情况等;
  • 资产管理:可以理解为对元数据的管理,包括元数据的增删改查;
  • 资产应用:可以理解为通过元数据管理提升数据资产的利用率,比如:数据资产的热度分析、全链分析、影响分析等;
  • 资产运营:严格意义上说不能是一个功能,而是为了提升数据资产质量和使用效率的一系列措施,可能涉及组织、制度、绩效考核等等方面。通过数据资产管理激活企业的沉睡的数据,从而促进数据的使用。

(2)数据研发平台IPaaS

  • 数据研发平台包括了数仓规划、模型构建、指标规范、数据同步、数据开发、任务调度、监控告警等功能,可以理解为数据仓库建设过程中所用到的相关技术与工具
  • 而在这方面阿里有一个核心的产品Dataphin(智能数据构建与管理)是一款用于大数据平台建设的智能引擎,提供数仓规划、数据引入、规范定义、数据建模研发、数据资产管理、数据服务等的全链路智能数据构建及管理服务。

(3)计算与存储平台IaaS

  • 计算与与存储平台主要提供计算和存储组件,包括实时计算和离线计算组件

(4)数据中台DaaS

  数据中台DaaS主要包含:

  • 垂直数据中心:面向各垂直行业应用的统一数据接入平台OneClick;
  • 公共数据中心:面向公共数据中心以业务板块+业务过程+分析维度架构的Onedata体系;
  • 萃取数据中心:面向业务对象+数据标签的OneID体系;数据开放共享中心:
  • 面向应用及开放的统一数据服务中间件OneService。这四个“One”构成了阿里巴巴数据中台的核心!

 

 OneData 方法论 ( OneModel+One ID+One Service )


 阿里数据中台长达十年实战沉淀的大数据建设OneData 体系(OneModel + OneID + OneService)的产品、技术以及方法论,一站式提供集数据引入、规范定义、数据建模、数据研发、数据萃取、数据资产管理、数据服务的全链路智能数据构建及管理服务,助力政府机构和企业打造属于自己的标准统一、融会贯通、资产化、服务化、闭环自优化的智能数据体系以驱动创新。

其中:

  • OneModel:统一模型构建与管理。通过全域数据集成、数据分层架构、业务视角标准规范定义数据和处理数据,致力于统一数据口径、消除指标二义性;

  • OneID:核心商业要素资产化。以业务和自然对象为基础,以标签数据为核心,能够实现全域实体识别与连接,数据价值深度萃取,助力企业构建标签体系、完成核心商业要素资产化;(以业务/自然对象+萃取标签为架构构建,实现统一数据,即:用户统一、企业统一、商品基础数据统一等等。)

  • OneService:统一的主题式服务。以业务便捷消费数据为目标,建立主题式的数据服务单元,面向应用快速构建 API 以提供服务,建立起统一的数据服务中心。 

 

1)、OneClick

OneClick是架构在阿里各垂直应用上的数据统一采集/接入平台,所以从概念上来看,OneClick类似传统的ETL,负责异构数据源的在线或离线的数据的采集、转换、清洗和装载。从PPT中我们看到阿里的数据生态包含了淘宝、天猫、聚划算、阿里妈妈、UC、盒马、优酷土豆、高德、天气、专利等。这些垂直应用数据多样、结构复杂、实时性要求也不同,一个ETL工具并不能满足其数据统一采集和接入的要求,可能还包括网络爬虫、文件传输等工具,所以OneClick可能并不是或者不完全是传统ETL的概念,可能只是垂直数据中心中的一个概念。

2)、OneModel

 

OneModel是数据资产化核心方法论通过指标标准化、指标组合,派生出新的指标。如根据原子指标(支付转化率)、业务限定(无线端)、统计粒度(买家)、时间周期(最近30天),组合派生出业务统计报表:最近30天买家在无线端的支付转化率。 

在阿里云栖社区上的一篇文章《OneModel体系能给数据中台的建设带来什么?》中,是这样描述OneModel的:

  • OneModel方法论保障了数据唯一性的数据域、业务过程,以及在数据域、业务过程之下的指标、实体属性等的结构性封装、命名和定义
  • 数据规范定义是在开发之前,以业务的视角进行数据的统一和标准定义,确保计算口径一致、算法一致、命名一致,后续的数据模型设计和ETL开发都是在此基础上进行的。
  • OneModel可以说是为数据标准化而生。

首先,数据模型的标准化。规范和统一业务定义、业务规则、字段命名、字段长度、字段类型等内容,本质上是元数据管理。主要包含三个方面:

  • ①业务元数据:对企业数据的业务定义、业务术语、业务规则进行标准化;
  • ②技术元数据:对数据的存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系进行标准化;
  • ③管理元数据:对数据的管理属性,包括管理部门、管理责任人、权限等进行标准化。后续的数据采集、处理、分析等操作都是基于数据模型标准化的基础之上进行的。

其次,业务指标的标准化。主要是对企业业务指标所涉及的指标项的统一定义和管理,构建命名规范、口径一致和算法统一的统计指标,为上层数据产品、应用和服务提供公共指标。据阿里巴巴公共数据平台负责人介绍,阿里通过对30000多个数据指标进行了口径的规范和统一,梳理后缩减为3000余个,尽管工程浩大,但是此举却为阿里带来了显著的收效。

第三,主数据与参照数据的标准化。主数据是用来描述企业核心业务实体的数据,比如客户、供应商、员工、产品、物料等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,被誉为企业的“黄金数据”。参考数据是用于将其他数据进行分类或目录整编的数据,是规定数据元的域值范围。

通过OneModel数据资产化核心方法论,驱动全集团业务。全盘把握与科学分析数据资产、清晰查看及快速使用数据资产、智能诊断与高效管理数据资产、准确评估及合理应用数据资产,如下图:

OneModel数据资产管理,包括数据资产管理平台,即:资产概览、资产地图、资产治理、资产应用等。

OneModel方法论是以维度建模为理论基础,构建总线矩阵,划分和定义业务板块、数据域、业务过程、维度、度量/原子指标、业务限定、时间周期、派生指标,设计出维度表、明细事实表、汇总事实表的过程。

  • OneModel 即建立企业统一的数据公共层,从设计、开发、部署和使用上保障了数据口径规范和统一,实现数据资产全链路管理,提供标准数据输出。
  • OneModel方法论可以帮准企业建设标准的、稳定的数据中台,但再好的方法论如果不能规模化、产品化,对于客户而言,开发、管理都是更多的开发投入,以及对更多的数据技术专家的依赖。
  • 通过规范定义,定义维度、业务过程、业务限定、原子指标、派生指标,通过定义、配置以后,自动生成维度逻辑表、事实逻辑表、汇总逻辑表,帮助企业建设高效、标准的数据中台。 

示例结构图如下:

  •  

主要内容包含:

  • 数据划分主题进行管理:表的命名,字段的命名等规范统一,做到见名知义数据格式和字段命名和定义规范化:具体参考离线数仓项目讲解的表和字段命名规范:数仓分层- 业务主题域-业务过程-基础信息-分区规则指标一致,不存在二义性:提供全局数据字典确保意义一致。
  • 数据模型复用:推荐采用分层的设计方式,通常包括:ODS 原始数据层,DWD 明细数据层, DWS 轻度汇总数据层,ADS应用数据层 / DM数据集市层,DIM 公共维度层。
  • 数据完善:数据中台尽可能的覆盖到所有业务过程,用户和系统的一切行为都被记录下来永久保存 OneData 体系的目标是构建统一的数据规范标准,让数据成为一种资产,而不是成本。资产和成本的差别在于资产是可以沉淀的,是可以被复用的。成本是消耗性质的、是临时的、无法被复用的。

3)、OneID

为什么我说阿里数据中台的OneID,其实本质上是主数据管理的事情?

主数据管理就是为了解决企业核心业务实体数据(客户、供应商、物料、产品等)在不同系统中的一致性、完整性、相关性和精确性的问题,提升数据质量,从而支撑企业的业务协同和管理决策。

在阿里巴巴数据中台官方宣传资料中,我们看到这样的定义:“OneID是以商业要素资产化为核心,实现全域链接、标签萃取、立体画像,数据应用服务整体解决方案。”这里的商业要素就是消费者、企业、内容、商品、位置等核心业务实体数据,传统上我们称其为主数据。而OneID也叫数据萃取中心,就是通过标签技术、知识图谱技术、画像技术在虚拟的网络世界实现商业要素(主数据)的唯一身份识别,保证企业核心数据的身份唯一性、一致性、完整性、相关性和准确性。所以,OneID可以理解为主数据管理,只是用的技术更先进些罢了。

4)、OneService

OneService,数据即服务,强调数据中台中的数据应该是通过 API 接口的方式被访问。即数据被整合和计算好之后,需要提供给产品和应用进行数据消费,为了更好的性能和体验,需要构建数据服务层,通过统一的接口服务化方式对外提供数据服务。
从不同的系统取数据,应用开发需要定制不同的访问接口。而且如果数据发生异常,还不能查出 影响到下游应用的那些应用或者报表。所以当你想下线一张表的时候,就无法实施,造成了上线容易, 下线难的囧状。而 API 接口一方面对应用开发屏蔽了底层数据存储,使用统一标准的 API 接口查询数据,提高了数据接 入的速度。另一方面,对于数据开发,提高了数据应用的管理效率,建立了表到应用的链路关系。

 

阿里提出了一种OneData标准,如图所示:

  •  

数据中台到如今的建设成果主要体现在两方面:一个是数据的技术能力,另一个是数据的资产 

 

智能用户运营解决方案


 解决方案包含数据源层、运营数据资产层、数字化运营层、生态层,通过全域集成运营数据,构建运营数据资产,进行受众画像圈选与分析,实现多渠道人群投放与触达,有效地将互联网用户引流至阿里自有生态、外部生态、企业私域生态

 

小结:


 阿里的数据中台主要由四个部分组成:数据资产管理IPaaS、数据中台DaaS、数据研发平台IPaaS、计算与存储平台IaaS

  • 数据资产管理IPaaS:数据管理及数据运行监控与运营;
  • 数据中台DaaS:核心为OneData 体系,包含OneID、OneModel、OneService
    • OneID:类似于主数据管理保证企业核心数据的身份唯一性、一致性、完整性、相关性和准确性
    • OneModel:为数据标准化而生,包含:
      • 数据模型的标准化
      • 业务指标的标准化
      • 主数据与参照数据的标准化
    • OneService:统一数据访问服务中间件
  • 数据研发平台IPaaS:数据仓库建设过程中所用到的相关技术与工具(参考:Dataphin_智能数据构建与管理)
  • 计算与存储平台IaaS:大数据基础平台

 

参考资料: