数据资产/元数据/数据目录-管理平台汇总
数据资产管理平台/元数据管理平台/数据目录管理平台
数据法规标准库:https://k8cp3rcjj0.feishu.cn/wiki/GqARwVIwbij7EakAxxfcFj7Mnvh
引言
1 概念
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)或者叫做信息的信息,或者说是用于提供某种资源的有关信息的 结构数据(structured data)。
主要是描述数据(文档&数据集)属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
我们可以把元数据简单的理解成,最小的数据单位。元数据可以为数据说明其元素或属性(名称、大小、数据类型、等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。
本质:元数据--管理数据的结构化工具
元数据是指从信息资源中抽取出来的用于说明其特征、内容的结构化的数据(如题名,版本、出版数据、相关说明,包括检索点等),用于组织、描述、检索、保存、管理信息和知识资源。
比如,关于一本书(信息资源),我们在图书馆系统中检索可以得到如下信息:

因此,就有了元数据标准。元数据标准包括元数据结构标准(即元数据包含那些项目,都柏林核心集,MARC元素集)、元数据内容标准、元数据取值标准、元数据编码标准(用于机读记录的存储和交换,比如MARC(Machine Readable Cataloging), XML)
2 元数据分类
一个完整的元数据体系可以做横向和纵向的切分。
从横向看,元数据可以分为描述型元数据、管理型元数据、应用型元数据以及融合了元数据和其他结构的语义特征内容的标记语言。
其中描述型元数据用于描述对象内容和外观特征;管理型元数据用于管理复合对象、应用型元数据主要为特定应用而设立。
从纵向看,元数据体系应包含完整的语义、结构以及语法。如图,语义元数据指的是基于一个特定领域模型或本体来描述该领域详细信息的元数据;结构元数据描述元数据各元素之间的相互关系;语法元数据规定了这一元数据体系是如何被表达与描述的。当我们把原始数据结构或者半结构化,从中抽取核心概念,设计语法或结构元数据,再根据概念间关联构建语义元数据框架,最终用可以用来描述、组织、检索以及推理某个相关领域内的领域知识。由底层数据到语义元数据再到领域知识的过程中,可利用的领域信息和语义也逐渐增多,对资源的有效管理和使用也逐渐增强。
| 描述型 | 结构型 |
技术性 |
业务/应用型 | 行政/管理型 | |
| 语义 | |||||
| 结构 | |||||
| 语法/句法 |
元数据一共分为3个大类:业务元数据、管理元数据、技术元数据。
a、业务元数据
解释数据的业务含义、定义及用途,帮助业务人员理解数据上下文,例如实验方法、数据采集规则等。
1)模型元数据:数据建模,是一种对业务的描述,通过模型可更好地了解业务。常见的建模方式有范式模型、维度模型、多维建模等;
2)应用元数据:描述数据应用类的元数据;
3)分析元数据:从数据分析角度,描述业务的元数据。
b、管理元数据
描述企业内部,数据管理相关内容。包含数据管理信息,如所有者、权限控制、版本控制等,用于支持数据治理和合规管理。
c、技术元数据
描述数据的技术属性,包括文件格式、存储位置、创建时间、数据版本等信息,用于支持数据管理和系统维护。
1)物理元数据:描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息;
2)数据源元数据:描述数据源的元数据;
3)存储元数据:描述对象存储的元数据,也是通常"狭义"上的元数据;
4)计算元数据:描述数据计算过程的元数据,通常可分为数据抽取(ETL)或数据加工(JOB)两类计算;
5)质量元数据:描述数据质量的一类元数据。通常情况下,是通过定义一系列质量指标反映数据质量;
6)操作元数据:描述数据是如何进行使用的一类元数据;
7)运维元数据:描述系统运维层面的元数据,通常包括任务类、报警类及故障类;
8)成本元数据:描述数据存储及计算成本的元数据;
9)标准元数据:描述数据标准化内容的元数据;
10)安全元数据:描述数据安全内容的元数据;
11)共享元数据:描述数据是如何共享的部分,包括接口方式、格式、内容等。

3 算法实例
在中医药领域,元数据可以被用于构建本体或语义网络框架等。例如,在基于医案元数据的中医诊疗知识库构建研究中,研究者参考了基于知识组织层次的知识库构建流程,选择权威的中医医案资源并进行文本处理,形成中医医案领域的基础概念集;同时复用中医药学语言系统语义网络框架,建立中医学概念语义分类层次模型和语义关系模型,最终在此基础上构建基于本体的元数据模型,开发以收集中医诊疗数据为主要目的的中医诊疗知识库 原型系统并进行数据的实地采集,验证其对隐性知识挖掘的所起到的数据支撑作用。

4 元数据管理的价值
元数据管理平台为用户提供高质量、准确、易于管理的数据,它贯穿数据中心构建、运行和维护的整个生命周期。同时,在数据中心构建的整个过程中,数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节,均需要通过相应的元数据的进行支撑。
通过元数据管理,形成整个系统信息数据资的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。

一、数据资产 / 元数据管理平台开源
Refer:https://blog.csdn.net/zdsx1104/article/details/128892219

一、元数据管理工具
Apache Atlas
Collibra
Datahub
Open Metadata
Gravitino (Metacat、WaggleDance 和 Open Metadata) // https://mp.weixin.qq.com/s/WnPhlJSex7lGBNFWAlbJPg
二、数据发现工具
Dataedo
UniFi
三、数据治理平台(包含数据资产梳理功能)
IBM InfoSphere Information Governance Catalog
Talend Data Governance
DataWorks (阿里)
HDFS 文件 FileSet是文件集的概念
终端文件系统
安装Flume客户端
申请“数据防泄漏系统”产品检测,请参考《安全保密产品检测申请书》模板提交申请。
Agent部署、镜像旁路部署、透明网桥部署、以及分布式部署集中化管理
浙公网安备 33010602011771号