数据质量和数据治理的关系 | 京东云技术团队
很多不太了解的人会认为:数据治理就是干数据清洗的。
近两年,在我们公司,数据治理团队在数据降本方面做的比较多,效果还不错,我们很多人可能以为:数据治理就是做数据清理的。
在京东科技集团数据治理工作组第一次全体会议上,我就讲过数据治理和数据清洗之间的关系:
数据清洗只是指通过识别和纠正数据中的错误、缺失、重复或不一致等问题,确保数据质量的过程。
我的观点是数据质量和数据治理是一体的,没有数据治理,就不可能有良好的数据质量。通过进行数据治理,我们实现了数据质量。怎么会这样?那是什么意思?让我们来了解一下。
1 数据质量管理
更准确地说,数据质量或数据质量管理侧重于确保数据符合我们的数据质量维度。数据质量有很多维度,比如:
数据质量确保我们的数据符合这些维度。或者简单地说,数据质量管理确保我们拥有高质量的数据,干净的数据。
让我们扩展我们对数据质量管理的理解,并从DAMA国际的角度来看待它。数据质量是国际数据管理协会确定的11个数据管理领域之一:

根据DAMA的说法,数据质量包括质量管理技术的计划和实施,以测量、评估和提高数据在组织内的适用性。
实际上,数据质量在大多数其他数据管理领域中都发挥着作用。要保证数据安全,就不可能没有好的数据质量,元数据与数据质量的关系也是双向的,数据架构也会对数据的质量起到一定的作用,反之亦然。处于中心地位的数据治理确保所有这些数据管理领域结合在一起。
2 无论治不治理,数据质量都在那里
到现在为止,你可能会说:“好吧,我有点明白了,但我们没有做数据治理,数据质量也挺好。”如果是这样的话,我认为有两种可能的现实:
让我们更详细地看一下这两个案例。
2.1 真的没有数据治理
如果数据治理不存在,那么我们可能会遇到以下一种、部分或全部情况:
2.2 有隐形的数据治理
就目前我们公司的现状开看,作为产研、数仓、数据集市、数据分析等团队成员,你实际上可能会说:“好吧,我们并没有像你上面描述的那样糟糕”。您实际上可能有:
那么,你可能就有了我喜欢称之为“卧底数据治理”的东西。你可能有很多数据治理的工作内容,但没有正式、正规和专业化的数据治理。
3 数据质量和数据治理关系
我想我已经从上一节中明确指出,数据治理和数据质量是共生关系。它们是同一枚硬币的两面。没有数据治理,就不可能有良好的数据质量,而数据治理实施必须非常有效,才能从根本上解决数据质量问题。
实际上,数据质量和数据治理之间存在相当多的重叠,如下图所示:

数据治理描述了谁需要做什么、在什么条件下对什么数据执行操作,以及使用哪些流程、程序、工具和总体最佳实践。因此,很多因素都会对数据质量产生有益的影响,但不仅如此。业务规则、数据标准、指标、角色和职责等都有利于数据质量,因此是重叠的,但不仅仅是数据质量。主数据管理、数据可访问性、数据集成、元数据管理、BI,甚至数据安全等等都有直接的好处。
当然,也有一些领域只与数据质量有关,例如:数据概要分析、数据匹配、根因分析和数据清洗。
4 总结
很多时候,数据质量是数据治理的驱动因素之一,这是数据治理计划的最初重点,因此两者之间可能会混淆。但它们并不相同,它们是同一枚硬币的两面,而不是两枚硬币。
作者:京东科技 李然辉
来源:京东云开发者社区 转载请注明来源