海量数据模型实施方法论

       模型是现实世界实物特征的一种抽象,比如地图,沙盘,气象图或者星象图等。数据模型是实物数据特征的抽象。

一。LDM(逻辑数据模型) 三要素:实体,属性和关系,采用实体-关系模型,用ERwin建模。 模型设计的好坏直接关系到数据的:

-稳定性

-易用性

-查询性能

-存储空间

-维护成本

理想的逻辑数据模型结构应该如下:

   -将相关的主题域进行组合,形成更少的高阶分组。

   -主题域至少应该包含在一个主要主题域里面,达到可重用性。

   -不同行业的主要主题域都不相同

   -真实世界实物的描述,静态实体,以及它们之间动态的关系

   -实体代表一个人,一个组织,概念或者事件

   -属性描述了实体的特征和数据事实

   -它们的关系有一对多,多对一,多对多

   -相关对象的组合(实体,属性和关系)以表达一个特定的业务功能

   -实体可以属于一个或者多个主题域,达到可重用性。

   -一个主题域可以由一个或者多个ER图构成,以表达主要目标的不同方面 统一的逻辑数据模型框架构成:

          -用于管理数据建模的标准和规范

          -用于创建可用于业务功能描述的模型方法论

          -将逻辑数据模型封装到行业逻辑数据模型的方法论

 

二。模型设计流程

  1)信息分析和数据提取

       -了解源业务系统:业务种类和规则

       -源业务系统的关系:数据接口,加工规则,怎样保持一致性

       -了解源数据结构和流向

       -数据概况:数据量,增全量导出方式,数据格式,数据质量

重点讲样本数据检验规则!!:

       - 验证业务规则

       -表间数据关系分析 -每个字段的分析: 字段业务含义,字段取值范围, 字段间有无关联关系, 字段关系是否完整, 数据质量情况(非代码字段的空值,非法值,主键完整性,唯一性,外键完整性)

       -填写样本数据和代码表取值

  2)逻辑模型的设计 目标:

       - 不针对某个特定的应用而设计

       - 以第三范式存放数据,业务发生变化时易于扩展,适应复杂业务情况

       - 稳定性:能够在很长时间(比如5年内)适应和回答不断变化的业务问题

       - 易解释性:使用业务语言设计,易于IT和业务人员进行交流 步骤:

       - 统一业务术语:对重要的业务元素进行统一定义

       - 构建LDM原型框架:确定着数据仓库的数据组织原则和基本形式,也确定着数据仓库的应用范围和应用模式 确定模型设计的主题范围,主题重要的LOGICAL VIEW, 各主题重要的实体,分类和关系,确定各实体的主键和候选键

       - 基于LDM原型框架,进行各主题的详细设计: 创建各主题的实体和属性,尽可能简单,用业务无法二义性解释的语言进行说明 建立各实体的关系,准确体现业务规则 选择主键:逻辑主键或者代理主键 整理相关代码表:

                 -建立主外键关系

                 -定义转化规则:从源系统到LDM的映射,数据类型,业务转换规则,对数据质量差和缺失的数据的业务规则进行补充说明

                 -完善与跟踪: 与技术人员进行讨论:

                 -如果源业务系统的数据与业务描述不对应

                 -如果重要的数据缺失

                 -如果实体之间的关系不正确 与业务人员或者分析师进行讨论:

                 -是否能准确实现业务需求

                 -是否能方便理解 - 重要的业务规则是否得以体现

 3)物理模型的设计: 在逻辑数据模型的框架和原则上,针对系统性能和应用需求进行适当的非范式化的物理模型设计:

与LDM相同点:

        - 主题,实体,属性和关系一致

posted @ 2017-10-01 10:05  大李姗姗  阅读(498)  评论(0编辑  收藏  举报