数据仓库各数据层含义及分配原则(简要)

数据仓库通常采用分层架构设计,不同层次承担不同职能,以下是典型的数据仓库分层及其分配原则:

1. ODS层(Operation Data Store,操作数据层)

含义:原始数据层,与源系统保持一致的原始数据
分配原则:

  • 直接接入源系统数据,不做或做极少加工

  • 保留历史数据,按时间分区存储

  • 数据粒度与源系统完全一致

  • 建议保留数据抽取日期标记

2. DWD层(Data Warehouse Detail,明细数据层)

含义:面向主题的明细数据,数据仓库的核心层
分配原则:

  • 对ODS数据进行清洗转换(去重、空值处理、脏数据处理等)

  • 进行维度退化(将相关维度信息冗余到事实表中)

  • 保持原子粒度,不做聚合

  • 建立一致性维度(如日期、地区等公共维度)

3. DWS层(Data Warehouse Summary,汇总数据层)

含义:面向主题的轻度汇总数据
分配原则:

  • 基于DWD层数据进行轻度汇总

  • 按业务主题组织数据(如用户主题、商品主题等)

  • 保留较细粒度,通常按天汇总

  • 建立宽表,减少后续查询的关联操作

4. ADS层(Application Data Store,应用数据层)

含义:面向应用的高度汇总数据
分配原则:

  • 面向具体应用场景的高度聚合数据

  • 包含指标计算、业务逻辑实现

  • 可直接用于报表、分析等应用

  • 通常包含KPI指标、业务报表等

5. DIM层(Dimension,维度表层)

含义:一致性维度表
分配原则:

  • 存储所有业务过程共享的维度信息

  • 维护缓慢变化维(SCD)的处理策略

  • 确保维度一致性(同一维度在不同事实表中的含义一致)

  • 包含日期、地区、产品等公共维度

分层设计建议

  1. 数据流向:ODS → DWD → DWS → ADS(单向流动)

  2. 处理原则:下层为上层服务,上层不跨层引用

  3. 复用原则:公共计算下沉,避免重复计算

  4. 粒度控制:从下到上,粒度逐渐变粗

  5. 历史数据:ODS和DWD层应保留详细历史,上层可适当聚合

通过这种分层设计,可以实现数据仓库的清晰架构、高效处理和易于维护。

posted @ 2025-08-05 11:59  爆炸球  阅读(104)  评论(0)    收藏  举报