数据仓库

什么是数据仓库?

数据仓库是面向主题的,集成的,随时间变化的,非易失的集合。

数据仓库的模型---星型模型

事实表连接着多个维度表,是单维度的每个维度上不存在再连接维度表了


特点:  不存在渐变维度,非正规化,有冗余数据,查询效率比较高

数据仓库的模型-- 雪花模型

多个维度表连接着事实表且每个维度表上会连接至少一个维度表


特点: 正规化,数据冗余少,规范化操作复杂,会导致设计以及后期维护复杂,
有些数据需要连接才能获取,效率变低

维度表的设计方法(重点)

选择维度 -> 确定主维表 -> 梳理维度关系 -> 定义维度属性

事实表的设计流程

选择业务 -> 声明粒度 -> 确定维度 -> 确定事实 -> 冗余维度

事实表的设计原则

事务事实表:

描述的业务的过程,跟踪空间或者时间上某一点的度量事件保存的是最原子的数据。

每行记录实体的一个事务(如:下单流水,支付流水)

周期快照事实表:

具有规律性的,可预见的时间间隔,产生快照每行代表某一个时间周期的一个实体
记录的事实是 时间周期内的聚集事实值(如库存快照表)

累计快照事实表:

描述的业务的过程,跟踪空间或者时间上某一点的度量事件保存的是最原子的数据。

每行记录实体的一个事务

posted @ 2024-11-14 20:17  wang_jun  阅读(255)  评论(0)    收藏  举报