02.数据仓库的建设

2.1 业务发展需求&重定义&规划

2.2 技术体系规划

      数据仓库的建设分为技术架构体系建设,数据内容建设,一般的仓库的技术体系安装&部署,跟新新版是比较慢的,但是不是更新,而是漫长的优化过程,替代比较,除非现在的功能不足以满足业务的需求的需要。
      但是数据内容建设是一个持续的,完善的过程,规则和标准不停的完善,模型在数据积累到一定程度或者需求的完善丰富到一定程度后,进行迭代重构&更新。这个操作一般都是同步进行的。类似应用的多环境机制。

2.2.1 技术体系架构图

其中有关模型术语,参见第10章相关介绍

2.2.2 生命周期体系流程图

2.2.3 业务需求定义

      在不断收到业务部门的业务需求,添加或完善已有的内容体系,这个过程不断的叠加和积累,在一定的程度下,需要经过一个量变到质变的阶段—模型更新和迭代。

2.3. 数仓数据建模

数据建模,就是将现实中的实体抽象,足以描述实体及关联关系的特定系统模型。

2.3.1 常用的几种建模

数据仓库建模方法种类较多,常见的三种是范式建模、维度建模、实体建模。

本文中主要说 维度建模

  • 由数据仓库领域大师 Ralph Kimall 所倡导
  • 目前是数仓工程领域最流行的经典的 模型
  • 出发点 分析决策的需求
  • 目标 服务于分析需求
  • 重点关注点
    • 如何更快速完成分析需求
    • 有较好的大规模复杂查询的响应性能

2.3.2 维度建模

什么事维度建模

官方定义:维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。

维度建模基本要素

以最简单的电商系统的示例

事实表

  • 官方描述

    发生在现实世界中的操作型事件,其所产生的可度量数值,存储在事实表中。
    从最低的粒度级别来看,事实表行对应一个度量事件,反之亦然。
    
  • 通俗解释

    用户购物下单行为,就是一个购物事实,
    系统的订单信息表记录用户在购买商品的各种要素信息,如,时间,商品信息,和用户信息等等。
    每完成一次下单行为,数据表中就增加一行记录。
    其中,订单表中记录的商品信息和用户信息的Id即外键,分别对应维度表的维度信息。

维度表

  • 官方描述

    每个维度表都包含单一的主键列。
    维度表的主键可以作为与之关联的任何事实表的外键,
    当然,维度表行的描述环境应与事实表行完全对应。
    维度表通常比较宽,是扁平型非规范表,包含大量的低粒度的文本属性。
  • 通俗解释

    电商用户下单的订单-事实表中描述的商品信息,用户信息;
    其中商品信息,用户信息分别对应着 商品维度表,用户维度表的某行记录。
    

模型优缺点

  • 数据冗余小(因为很多具体的信息都存在相应的维度表中了,比如客户信息就只有一份)
  • 结构清晰(表结构一目了然)
  • 便于做OLAP分析(数据分析用起来会很方便)
  • 增加使用成本,比如查询时要关联多张表
  • 数据不一致,比如用户发起购买行为的时候的数据,和我们维度表里面存放的数据不一致

维度建模方法论

维度建模的常用方法有两种: 星型建模和雪花型建模

2.3.3 如何维度建模

维度建模的4个步骤:

1) 选择业务过程(比如:促销活动、评选活动、产品交易等)
2) 声明粒度(确定数据单位的综合程度)
3) 识别维度(粒度已经确定了一个基本的维度集合,根据需要再添加其他相关的维度)
4) 识别事实(选择适合业务过程的指标)

步骤是非常符合数据仓库体系-内容建设的流程的

2.3.4 数据仓库总线

数据仓库的总线,主要解决数据仓库具体如何做的问题,需要一个的章节说明,参考第三章。

2.4 小结

  • 数据仓库技术体系
  • 数仓内容建设流程
  • 数据内容建设即建模 偏重理论方法,务必使用 模型电商订单设计 参悟 事实表和维度表
posted @ 2021-02-20 14:50  可可逗豆  阅读(159)  评论(0)    收藏  举报