数据仓库各数据层含义及分配原则(简要)
数据仓库通常采用分层架构设计,不同层次承担不同职能,以下是典型的数据仓库分层及其分配原则:
1. ODS层(Operation Data Store,操作数据层)
含义:原始数据层,与源系统保持一致的原始数据
分配原则:
-
直接接入源系统数据,不做或做极少加工
-
保留历史数据,按时间分区存储
-
数据粒度与源系统完全一致
-
建议保留数据抽取日期标记
2. DWD层(Data Warehouse Detail,明细数据层)
含义:面向主题的明细数据,数据仓库的核心层
分配原则:
-
对ODS数据进行清洗转换(去重、空值处理、脏数据处理等)
-
进行维度退化(将相关维度信息冗余到事实表中)
-
保持原子粒度,不做聚合
-
建立一致性维度(如日期、地区等公共维度)
3. DWS层(Data Warehouse Summary,汇总数据层)
含义:面向主题的轻度汇总数据
分配原则:
-
基于DWD层数据进行轻度汇总
-
按业务主题组织数据(如用户主题、商品主题等)
-
保留较细粒度,通常按天汇总
-
建立宽表,减少后续查询的关联操作
4. ADS层(Application Data Store,应用数据层)
含义:面向应用的高度汇总数据
分配原则:
-
面向具体应用场景的高度聚合数据
-
包含指标计算、业务逻辑实现
-
可直接用于报表、分析等应用
-
通常包含KPI指标、业务报表等
5. DIM层(Dimension,维度表层)
含义:一致性维度表
分配原则:
-
存储所有业务过程共享的维度信息
-
维护缓慢变化维(SCD)的处理策略
-
确保维度一致性(同一维度在不同事实表中的含义一致)
-
包含日期、地区、产品等公共维度
分层设计建议
-
数据流向:ODS → DWD → DWS → ADS(单向流动)
-
处理原则:下层为上层服务,上层不跨层引用
-
复用原则:公共计算下沉,避免重复计算
-
粒度控制:从下到上,粒度逐渐变粗
-
历史数据:ODS和DWD层应保留详细历史,上层可适当聚合
通过这种分层设计,可以实现数据仓库的清晰架构、高效处理和易于维护。

浙公网安备 33010602011771号