第5章 信息系统工程-数据标准化

5.2.2 数据标准化

    数据标准化是实现数据共享的基础。数据标准化主要为复杂的信息表达、分类和定位建立相应的原则和规范,使其简单化、结构化和标准化,从而实现信息的可理解、可比较和可共享,为信息在异构系统之间实现语义互操作提供基础支撑。数据标准化的主要内容包括元数据标准化、数据元标准化、数据模式标准化、数据分类与编码标准化和数据标准化管理。

    1.元数据标准化

    元数据最简单的定义是:元数据是关于数据的数据 (Data About Data)。在信息界,元数据被定义为提供关于信息资源或数据的一种结构化数据,是对信息资源的结构化描述。其实质是用于描述信息资源或数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。

    1)信息对象

    元数据描述的对象可以是单一的全文、目录、图像、数值型数据以及多媒体(声音、动态图像)等,也可以是多个单一资源组成的资源集合,或是这些资源的生产、加工、使用、管理、技术处理、保存等过程及其过程中产生的参数的描述。

2)元数据体系

    根据信息对象从产生到服务的生命周期、元数据描述和管理内容的不同以及元数据作用的不同,元数据可以分为多种类型。从最基本的资源内容描述元数据开始,指导描述元数据的元元数据,形成了一个层次分明、结构开放的元数据体系,如图 5-2 所示。 

 

    2.数据元标准化

    随着国际电子商务和贸易的快速发展,需要一个互连、互通、互操作的开放系统互连环境 (Open Systems Interconnection Environment,OSIE)。OSIE 四个基本要素 ( 硬件、软件通信和数据)中的三个要素(硬件、软件和通信),已经或正在制定相应的标准。为了使数据在各种不同的应用环境中易于交换和共享,国际标准化组织 (International Organization for Standardization,ISO) 提出了数据元标准的概念,要求按共同约定的规则进行统一组织、分类和标识数据,规范统一数据的含义、表示方法和取值范围等,保证数据从产生的源头就具备一致性。

    1)数据元

    数据元是数据库、文件和数据交换的基本数据单元。数据库或文件由记录或元组等组成,而记录或元组则由数据元组成。数据元是在数据库或文件之间进行数据交换时的基本组成。数据元通过一组属性描述其定义、标识、表示和允许值的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。数据元一般来说由三部分组成:①对象。对象类是可以对其界限和含义进行明确的标识,且特性和行为遵循相同规则的观念、抽象概念或现实世界中事物的集合。它是人们希望采集和存储数据的事物。对象类在面向对象的模型中与类相对应,在实体.关系模型中与实体对应,如学员、教员、军事院校等。②特性。特性是指一个对象类的所有成员所共有的特征。它用来区别和描述对象,构成对象类的内涵。特性对应于面向对象模型或实体-关系模型中的属性,如身高、体重、血压、脉搏、血型等。③表示。表示可包括值域、数据类型、表示类(可选的)和计量单位四部分,其中任何一部分发生变化都成为不同的表示。值域是数据元允许值的集合,例如“学生总数”这一数据元的值域是用非负实数集作为它的允许值集合。数据类型是表达数据元不同可选值的集合。以这些值的特性和运算为特征,例如学生姓名的数据类型是“字符”。表示类是表示类型的分类,它是可选的,例如“性别代码”这一值域的表示类是“类别”。计量单位是用于计量相关值的实际单位,例如学生身高的计量单位是“厘米”。

    2)数据元提取

    数据元提取是数据元标准化的一项重要内容,为了确保数据元具有科学性和互操作性,需要采用合理的数据元提取方法。目前常用的数据元提取方法有两种:自上而下 (Top-Down)提取法和自下而上 (Down-Top) 提取法。对于新建系统的数据元提取,一般适用“自上而下”的提取法。基本步骤是在流程和功能分析的基础上,通过建模分析,确立关心的“对象”。在概念数据模型和逻辑数据模型的基础上,分析提取数据元及其属性。自下而上提取法也称逆向工程对于已建系统的数据元提取,一般适用这种自下而上提取法。在这种情况下,数据元直接来自各个信息系统。数据元创建者依据数据元标准化方法,对信息系统及相关资源的数据,在分析梳理的基础上,归纳整理出数据元:根据数据元的实际应用,阐明并写出相关数据元在采集存储和交换过程中各个属性以及属性的约束要求:描述和定义各个属性所需要的属性描述符及其约束要求;根据给定的命名表示规范形成数据元。

    3)数据元标准

    一般来说,制定一个数据元标准,应遵循若干个基本过程,如表 5-10 所示。

 

 

 

 

    3.数据模式标准化

    数据模式是数据的概念、组成、结构和相互关系的总称。本质上,数据模式反映的是人类对客观世界的主观认知,而不同的人群对相同的客观世界的主观认知会有所不同,这就造成了在相同领域有不同的数据模式存在。在数据共享过程中,这种差异对人们进行信息的共享与交换形成了障碍。为了保证能够顺畅进行信息的共享,对特定领域而言,需要一个统一的数据模式作为数据共享与交换的基础。同时也保证该领域的相关人员对统一的数据模型有准确的、无歧义的理解。

    但在物理和技术层面,各类数据资源的数据格式、存储方式等各不相同,因此需要采用跨越物理和技术层面的方法来进行描述,也就是从数据的逻辑层面对数据集的内容、组成及其结构信息,进行合理的、规范的、本质上的说明和描述。通过数据集模式的标准化,一方面对数据的内容、组成、结构以及各部分的相互关系进行统一规范,相关领域、部门或者数据集制作者都可以根据数据模式制作出标准化的数据:另一方面,数据集按照数据库理论对数据进行了规范化处理,有利于减少数据冗余。

    在建立各数据集的数据模式的过程中,需要对客观世界的实体进行分析和抽象,利用图形文字等方法定义各种实体和相互关系。为对数据模式形成一致的理解,必须有规范的方法来客观、无歧义地描述数据集的内容、组成及其结构。数据模式的描述方式主要有图描述方法和数据字典方法。图描述方法常用的有IDEFIX方法和UML图,主要用来描述数据集中的实体和实体之间的相互关系:数据字典形式用来描述模型中的数据集、单个实体、属性的摘要信息。

    4.数据分类与编码标准化

    数据分类是根据内容的属性或特征,将数据按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序。数据分类有分类对象和分类依据两个要素。分类对象由若干个被分类的实体组成:分类依据取决于分类对象的属性或特征。任何一种信息都有多种多样的属性特征,这些属性特征有本质和非本质属性特征之别。分类应以相对最稳定的本质属性为依据但是对具有交叉、双重或多重本质属性特征的信息进行分类,除了需要符合科学性、系统性等原则外,还应符合交叉性、双重或多重性的原则。

    数据编码是将事物或概念(编码对象) 赋予具有一定规律和易于计算机、人识别处理的符号,形成代码元素集合。代码元素集合中的代码元素就是赋予编码对象的符号,即编码对象的代码值。所有类型的数据都能够进行编码,如关于产品、人、国家、货币、程序、文件、部件等各种各样的信息。

    所谓数据分类与编码标准化就是把数据分类与编码工作纳入标准化工作的领域,按标准化的要求和工作程序,将各种数据按照科学的原则进行分类以编码,经有关方面协商一致,由主管机构批准、注册,以标准的形式发布,作为共同遵守的准则和依据,并在其相应的级别范围内宣贯和推行。

    数据分类与编码标准化是简化信息交换、实现信息处理和信息资源共享的重要前提,是建立各种信息管理系统的重要技术基础和信息保障依据。通过分类与编码标准化,可以最大限度地消除对信息命名、描述、分类和编码的不一致造成的混乱、误解等现象,可以减少信息的重复采集、加工、存储等操作,使事物的名称和代码的含义统一化、规范化,确立代码与事物或概念之间的一一对应关系,以保证数据的准确性和相容性,为信息集成与资源共享提供良好的基础。数据分类与编码的作用主要包括用于信息系统的共享和瓦操作,统一数据的表示法和提高信息处理效率。

    5.数据标准化管理

    在数据标准化活动中,首先要依据信息需求,并参照现行数据标准、信息系统的运行环境以及法规、政策和指导原则,在数据管理机构、专家组和开发者共同参与下,运用数据管理工具,得到注册的数据元素、物理模式和扩充的数据模型。数据标准化阶段的具体过程包括确定数据需求、制定数据标准、批准数据标准和实施数据标准四个阶段。

    (1)确定数据需求。本阶段将产生数据需求及相关的元数据、域值等文件。在确定数据需求时应考虑现行的法规、政策,以及现行的数据标准。

    (2)制定数据标准。本阶段要处理“确定数据需求”阶段提出的数据需求。如果现有的数据标准不能满足该数据需求,可以建议制定新的数据标准,也可建议修改或者封存已有数据标准。推荐的、新的或修改的数据标准记录于数据字典中。这个阶段将产生供审查和批准的成套建议。

    (3)批准数据标准。本阶段的数据管理机构对提交的数据标准建议、现行数据标准的修改或封存建议进行审查。一经批准,该数据标准将扩充或修改数据模型。

    (4)实施数据标准。本阶段涉及在各信息系统中实施和改进已批准的数据标准。

posted on 2023-12-28 06:53  欢笑一声  阅读(394)  评论(0)    收藏  举报

导航