[大数据/数据管理] 数据中台:【数据仓库】为数据基础+【数据治理】为制度保障 => 业务数据化/数据资产化/资产服务化 => 为业务赋能
[#] 序

- 今日(2021-05-XX)客户对这些个概念不清楚,让我解释解释。说实在的,虽然对各概念都有印象和理解,但我也不能完完全全地辨析得很清晰。作为大数据从业者,还是有必要拎清一点。
让一切业务数据化,一切数据业务化。
- 业务数据化
- 数据资产化
- 资产服务化
---- 就先以《数据中台》提及的这句话开始吧!

- 此篇,也可视为是数据管理、数据治理、数据中台的综述篇。
0 数据治理:数据的“交警” | 面向数据的制度、方法论
定义
数据的"交警"
城市交通中,交警的职责是维护交通秩序,确保车辆和行人遵循交通规则,防止交通拥堵和事故发生。
在数据世界中,数据治理就好比这样的交警。
数据治理是对数据进行全面管理和规范的过程,确保数据的准确性、一致性、安全性和可用性,同时防止数据滥用和泄露。
数据治理还负责制定数据管理的规章制度,监督数据的采集、存储、处理和使用过程,确保数据在整个生命周期中都得到妥善管理。
核心功能
-
核心功能:
一套体系化的机制(制度)和方法论,旨在管理和控制数据全生命周期的质量、安全、合规性。
特点
-
特点:
作为一个支撑性的基础设施层,为数据仓库和数据中台提供高质量和可靠的数据。
目标
- 确保数据的质量(准确性、一致性、及时性等)和安全性,提升数据资产的价值和可信度
主数据:数据的“身份证”
定义与特点
让我们来谈谈主数据。
想象一下,在现实生活中,每个人都有自己的身份证,它是证明个人身份的重要证件。
同样,在数据世界里,主数据就像是数据的“身份证”。
-
主数据是企业内部最关键、最核心的数据,它描述了企业的核心业务实体,如客户、产品、供应商等。
- 就像身份证一样,主数据具有唯一性和权威性,它是企业内部各个部门和系统之间共享和交换数据的基础。
- 通过管理和维护好主数据,企业可以确保数据的一致性和准确性,提高业务处理效率和决策质量。
-
主数据的特点:
(1)唯一性:在一个系统、一个平台甚至一个企业范围内同一主数据要求具有唯一的识别标志(代码、名称、特征描述等),用以明确区分业务对象、业务范围和业务的具体细节。
(2)共享性:主数据特征会被作为业务流程的判断条件和数据分析的具体维度层次,因此需保证主数据的关键特征在不同应用、不同系统中的高度一致共享,形成统一规范 。
(3)稳定性:主数据作为用来描述业务操作对象的关键信息,在业务过程中其识别信息和关键的特征会被交易过程中产生的数据继承、引用、复制,但主数据本身的属性通常不会随交易的过程所被修改。
(4)有效性:只要该主数据所代表的业务对象仍然在市场中继续存在或仍具有意义,则该主数据就需要在系统中继续保持其有效性,通常贯穿该业务对象在市场上的整个生命周期甚至更长。
-
一家企业不只有主数据,还有一些其他数据,这里有一个金字塔结构的企业数据模型,包括:
-
基础数据。如:合同类型 / 职位 / 国家 / 币种等。
-
主数据。如:客户信息 / 组织人员 / 终端设备信息等。
-
业务数据。
- 事务数据。如:支付指令,生产计划等。
- 观测数据。如:系统日志,物联网数据,运输过程中的GPS数据等。
- 规则数据。如:员工报销遵从性评分规则,出差补助规则等。
-
报告数据。如:产品收入与成本分析,产品质量分析数据等。
-
元数据。
-
...
-
推荐文献
1 数据仓库:数据的"图书馆" | 集成、存储数据,为商业智能(BI)而生
由来
-
数据仓库(Data Warehouse):
-
由比尔·恩门于1990年提出,可简写为 DW 或 DWH。
-
为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建,为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
-
定义
数据的"图书馆"
假设你是一位图书馆管理员,每天的职责是管理和维护图书馆中的成千上万本书。
你必须确保每本书按照类别、作者、出版日期整齐有序地摆放,以方便读者查找和借阅。
数据仓库在企业中的作用就像这个图书馆:它存储了大量历史数据和结构化数据,并按照一定的规则和格式进行组织。
与数据中台不同,数据仓库更注重数据的长期保存和查询分析,提供强大的数据查询和分析能力,帮助企业深入了解市场、客户和业务流程,从而发现潜在的机会和风险。

作为企业经营决策支持体系的核心组成,为商业智能(BI)而生
- 数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略数据集合。
- 它是单个数据存储,出于分析性报告和决策支持目的而创建。
- 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

- 数据仓库的开发活动
原来各个业务系统/数据孤岛中的数据,可能会在物理位置(比如沃尔玛在各个城市可能都有自己的数据中心)、存储格式(比如月份是数值类型,但但天气可能是字符类型)、商业平台(不同数据库可能用的是Oracle数据库,有的是微软SQL Server数据库)、编写的语言(Java或者Scale等)等等各个方面完全不同;
数据仓库要做的工作就是将他们按照所需要的格式统一集中汇集、统一提取出来,再进行必要的转换(统一数据格式)、清洗(去掉无效或者不需要的数据)等,最后装载进数据仓库。

数仓,即数据仓库,是企业决策支持体系中的核心组成部分。
它从管理需求出发,整合各业务系统的数据资源,通过数据处理工具生成数据仓库,并应用于企业的各个业务领域。
数据仓库的运用主要聚焦于优化企业的业务流程、监控时间、成本、质量等关键指标,从而助力企业实现更高效、更精准的管理决策。

图:企业级BI分析平台架构
目标
- 存储、集成和管理来自不同源的历史数据,主要用于报告和数据分析,是支持商业智能(BI)的关键组件。
- 支持复杂的查询和报表,提供分析决策支持
特点:4V
面向主题设计,存储历史数据,强调数据清洗和结构化,以提供高质量、一致的数据集。
一般来说,数据仓库是一个面向主题的、集成的、相对稳定的,并反映历史变化的数据集合,它主要用于支撑管理人员的决策过程。
- 面向主题
- 指数据仓库内的信息是按主题进行组织的,而不是像业务系统那样按照功能组织。
- 意味着数据仓库是围绕企业的具体业务需求进行构建的,旨在提升管理效率;
- 面向集成
- 指它能够将来自不同平台的数据进行汇总,打破数据孤岛,同时在整合过程中实现数据治理和编码的标准化;
- 指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
- 相对稳定
- 强调的是数据仓库不会直接连接到业务系统,而是通过从业务系统中提取数据来工作,以避免对业务系统性能造成影响;
- 反映历史变化
- 指的是数据仓库能够存储并反映业务系统的历史数据,为未来的大数据挖掘与分析提供重要依据。
- 数据是基于历史的,指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数仓的类别
- ROLAP / MOLAP
MOLAP,数据以多维方式存储以减少存储空间并提高查询效率,代表厂商为微软;
ROLAP,数据以关系数据库方式存储,代表厂商为SAP BO。
- 离线数仓 vs 实时数仓
数据仓库 vs OLAP数据库:相辅相成,相互成就
- 数据仓库为
OLAP数据库解决了数据来源问题,数据仓库和OLAP互相促进发展,进一步驱动了商务智能(BI)的成熟。 - 数据仓库一般都是作为商业智能系统、数据仪表盘等可视化报表分析服务的数据源。
面临的挑战
- 数据实时性难以保障
数据实时性问题:由于数据仓库是基于历史数据的,无法满足现代企业管理需求,原来数据仓库基于历史数据设计主要是为了提高查询效率,但是现代的硬件技术与分布式计算早已提供了更好的解决方法。
- 数据共享问题
数据共享问题:
1,数据仓库以主题方式组织数据,比如 财务数据、销售数据、采购数据,就使得在解决数据孤岛的问题上又形成了一棵棵“数据烟囱”,
2,各部门在使用数据时,仍然会面临数据不一致问题,
3,且数据仓库与业务之间高度耦合,也使得数据仓库维护工作量很大,修改起来工作量巨大,难以跟上管理变革。
- 数据分析对业务的支撑不足
数据分析对业务的支撑不足:
由于数据分析是基于历史数据的分析,而业务是实时的,所以,两者之间存在一定的【时间差】,导致数据分析只能起到对业务的“支撑”作用,而无法起到对业务的“驱动”作用。
2 数据中台 := 数据的"中央厨房" | 以【数据仓库】为数据基础,【数据治理】为制度支撑 => 实现:业务数据化,数据服务化 => 为业务赋能
由来
-
数据中台: 某种意义上是一个正宗的中国概念,最早在2015年,阿里巴巴马云访问过北欧的Supercell游戏公司之后,便提出了这个概念。
-
并不是所有的公司都需要建设【数据中台】
- 因为数据中台不仅仅有数据仓库,还包含了一系列配套的平台(元数据、数据安全、数据质量、BI分析等),建设的成本比较高,而对于大多数小公司而言,这种经济成本是不划算的。
- 但对于中大型公司,是数字经济时代、数智化转型浪潮、AI时代,数据中台建设的必要性和重要性,不言而喻。(需要作为企业战略,一把手工程)
定义
数据中台 ≠ 大数据平台
-
数据中台不等于大数据平台(例如: Hadoop)。
-
数据中台的核心工作,也并不是将企业的数据全部收集起来做汇总就够了。
-
数据中台的使命是利用大数据技术、通过全局规划来治理好企业的数据资产,让数据使用者能随时随地获取到可靠的数据。
因此,数据中台一旦建成并得以持续运营,其价值将随着时间的推移将呈指数级增长。
数据的"中央厨房"说
想象一下,你是一家大型餐厅的厨师长,每天需要处理从不同供应商那里采购的多种食材。为了确保食材的新鲜、卫生与高效利用,让这些食材保持鲜美、干净,并且能迅速转化为美味的佳肴,你需要一个中心化的厨房,来集中接收、清洗、切割并分配这些食材——建立一个中央厨房就显得尤为重要。
而这个中央厨房的角色就是数据中台在企业中扮演的角色。

- 数据中台【整合】来自不同业务部门、系统和渠道的数据,对其进行【清洗】、【加工】和【标准化处理】,然后再将处理后的数据【提供】给业务部门使用。 (亿信华辰 / 派可数据 / ...)
就像中央厨房能确保食材的品质、规格统一且随时可用一样,数据中台也保证了企业数据的高质、统一和便捷获取,从而使得数据能够成为企业决策和运营的坚实后盾。(类比:数据的质量、一致性和可用性)

数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义,基于能力定义利用数据组件搭建自己的数据中台。
数据中台是前台、后台的连接点 => DATA-API(数据服务)是核心
- 数据中台: 中台相对于前台和后台而生,是前台、后台的连接点,将业务上共同的【数据】、【工具】、【模型】等予以沉淀与支撑。
数据中台: 整合数据技术、产品技术能力,提供统一的数据和服务,强力支撑前台业务。
---- 网易数帆
- 数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念
---- ThoughtWorks 数据智能总经理,数字化转型专家——史凯
Data API是数据中台的核心,它是连接前台和后台的桥梁,通过API的方式提供数据服务,而不是直接把数据库给前台、让前台开发自行使用数据。
至于产生 Data API 的过程:
- 怎么样让 DataAPI 产生得更快?
- 怎么样让 DATA API 更加清晰?
- 怎么样让 DATA API 的数据质量更好?
这些是要围绕数据中台去构建的能力。
数据中台 = 以【数据仓库】为数据基础,【数据治理】为制度支撑 => 实现:业务数据化,数据服务化 => 为业务赋能
数据仓库在大数据时代的延申。
-
在数据仓库的基础上,进一步将数据进行资产化,并以服务化的形式输出,赋能业务场景。
-
数据中台:
- 一套可持续“让企业的数据用起来”的机制,
- 一种战略选择和组织形式,
- 是依据企业特有的业务模式和组织架构,
- 通过有形的产品和实施方法论支撑,
- 构建一套持续不断把数据变成资产并服务于业务的机制。
《数据中台》
-
让一切业务数据化,一切数据业务化。
-
业务数据化
-
数据资产化
-
资产服务化
-
《数据中台》
目标
- 构建一个持续将数据变成资产,并服务于业务的机制,提高数据利用效率。
业务数据化 => 数据资产化 => 资产服务化。
特点
作为一个更广泛的概念,包含数据仓库作为其一部分。 它关注的是数据的共享和复用,能够支撑多种业务需求。
-
统一数据标准: 通过数据标准体系建设方法论+数据指标系统,统一数据指标口径,消除数据二义性
-
统一数据服务: 统一对外数据服务接口,实现所有需求,一个接口
-
统一数据资产管理: 提供企业级数据资产管理平台,并通过数据地图与数据血缘实现360°数据全链路追踪
-
统一开发平台: 提供可视化、拖拽式自助开发与分析平台,统一数据开发流程与项目周期管理
核心能力
- 数据中台需要具备【汇集整合】、【数据开发】、【数据管控】、【数据应用】4大核心能力,让企业员工、客户、渠道、伙伴能够方便地管理、应用数据。
汇集整合 := 数据接入 := 数据集成 := 数据融合
提供丰富异构数据源的汇集能力
提供实时数据接入能力
具备可视化任务设计、丰富的监控管理能力
提供海量数据的接入能力
数据开发
提供海量数据的【数据处理】能力
具备【多种数据类型】处理能力
提供多引擎业务【流程编排】能力
提供强大的【任务调度】能力
具备统一的【数据开发语言】
数据管控
具备【数据资源业务定义】能力
提供【数据标准】线上管控能力
提供【数据质量】体系监控能力
提供【数据资源分级分类】能力
数据应用
为业务中台赋能
提供便捷的【数据服务】API
提供【数据安全】访问控制
提供数据画像的业务能力
工程建设
- 数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。
组织架构层
管理制度层: 流程、规范
方法理论层
- 数据能力成熟度模型
- 数据仓库建设理论 / 数据管理与治理理论
工具平台层
数据平台(数据接入、数据开发、数据交换 | 流程编排、调度、监控 | 元数据、模型、标准、质量、资产管理、安全、分析/挖掘、可视化/报表/共享/...)
- 工具平台层是数据中台的载体,包含:
- 大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全等于一体的大数据平台;
- 还包含建设数据中台的一系列工具,如离线或实时数据研发 工具、数据联通工具、标签计算工具、算法平台工具、数据服务工具及自助分析工具。
以上工具集基本覆盖了数据中台的数据加工过程。
数据资产层
- 数据资产层是数据中台的核心层。总体来讲,可以划分为主题域模型区、标签模型区和算法模型区。
①主题域模型
-
主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合。
- 业务过程可以概括为一个个不可拆分的行为事件,如订单、合同、营销等。
-
为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影响地被包含进已有的数据域中或者很容易扩展新的数据域.
②标签模型
-
标签模型的设计与主题域模型方法大同小异,同样需要结合业务过程进行设计,需要充分理解业务过程。
-
标签一般会涉及企业经营过程中的实体对象,如会员、商品、门店、经销商等。
- 这些主体一般来说都穿插在各个业务流程中,比如会员一般都穿插在关注、注册、浏览、下单、评价、服务等环节。
- 那么在设计标签的时候就需要充分理解这些业务流程,在流程中发现标签的应用点,结合这些应用点来搭建企业的标签体系。
-
标签模型按计算模式一般分为客观标签和主观标签。
-
设计标签模型时非常关键的要素是标签模型一定要具有可扩展性。
- 毕竟标签这种数据资产是需要持续运营的,也是有生命周期的,在运营的过程中随时可能增加新的标签。
③算法模型
- 算法模型更加贴近业务场景。在设计算法模型的时候要反复推演算法模型使用的场景,包括模型的冷启动等问题。
- 整个模型搭建过程包含:定场景、数据源准备、特征工程、模型设计、模型训练、正式上线、参数调整7个环节。
以新零售企业为例,常用的机器学习算法有:决策树、神经网络、关联规则、聚类、贝叶斯、支持向量机等。
这些算法已经非常成熟,可以用来实现商品个性化推荐、销量预测、流失预测、商品组货优化等新零售场景的算法模型。
数据应用层
- 数据应用层严格来说不属于数据中台的范畴,但数据中台的使命就是为业务赋能,几乎所有企业在建设数据中台的同时都已规划好了一部分的数据应用。
- 数据应用可按数据使用场景来划分为以下多个使用领域:
- 分析与决策应用
- 标签应用
- 智能应用
3 总结辨析
数据仓库 VS 数据中台
| --------- | 数据仓库 | 数据中台 |
|---|---|---|
| 数据来源 | 传统数仓的数据来源主要是业务数据库,数据格式也是结构化数据为主 | 数据湖的概念,汇集企业全域数据,主要包括业务数据库、日志数据、物理网数据、爬虫数据、外部数据等。 |
| 建设目标 | 传统数仓主要用来做BI的报表,需求较单一,平台仅抽取和清晰该相关分析报表用到基础数据。 | 融合整改企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。 |
| 数据应用 | 主要提供报表,构建领导驾驶舱、业务驾驶舱、管理驾驶舱等应用。 | 不仅面向BI报表,更多面向营销推荐、用户画像、AI决策分析、风险评估等。 |
| 数据组织 | 数据仓库更多的是 数据管理部门或技术部门主要参与,业务部门参与度低。 | 需从企业素质架构层面进行调整。构建面向业务部门赋能的数据组织架构。 |
传统架构(业务系统 + 数据仓库/BI系统) => 中台架构(业务中台 + 数据中台)

数据仓库 VS 数据平台 VS 数据中台
数据治理 VS 数据仓库 VS 数据中台
-
层级关系:
- 数据治理是企业数据的制度基础;
- 数据仓库是存储和分析的载体;
- 数据中台则是在【数据仓库】和【数据治理】的基础上构建的应用层、赋能层,旨在充分发挥数据的价值。
-
协同关系:
- 数据治理为数据仓库和数据中台提供数据质量和安全保障。
- 数据仓库为数据中台提供高质量的原始数据,是其核心存储能力。
- 数据中台将数据仓库中的数据进行加工、提炼(如形成标签和画像),然后以服务的形式输出给业务,实现数据资产的价值。
Y 推荐文献
- [大数据] 大数据综述 - 博客园/千千寰宇
- [数据工程/数据仓库] 数据工程的开发规范 - 博客园/千千寰宇
- [数据管理] 大数据平台/ 数据治理/数据仓库-开源软件与框架篇 - 博客园/千千寰宇
- DCMM : 数据管理能力成熟度评估模型 - 博客园/千千寰宇
- [软件过程/软件生命周期模型]软件过程的工具链&技术链- 博客园/千千寰宇
X 参考文献
-
到底什么是数据中台? - CSDN 【推荐】
-
[数据管理的四大支柱:揭秘数据中台、数据仓库、数据治理和主数据 - Zhihu]((2 封私信) 数据管理的四大支柱:揭秘数据中台、数据仓库、数据治理和主数据 - 知乎)
本文链接: https://www.cnblogs.com/johnnyzen
关于博文:评论和私信会在第一时间回复,或直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
日常交流:大数据与软件开发-QQ交流群: 774386015 【入群二维码】参见左下角。您的支持、鼓励是博主技术写作的重要动力!

浙公网安备 33010602011771号