haha-an-apple

数据仓库建设之数仓分层

一、数据架构及分层

序号 层次 名称 简称 功能定位
1 数据仓库 数据缓冲层 STG 源业务系统的数据增量或快照,保存细节数据,按日存储为主
2 贴源明细层 ODS

用于合并、存储生产系统历史至今数据,按照业务归属存储数据,并进行数据脱敏及脏数据清洗处理

3 整合明细层 DWD 按照业务过程整合明细数据,在保持原子粒度的基础上,完成名称+维度标准化、数据预关联,并以逆范式宽表落地
4 共性加工层 DWS 基于应用集市沉淀的通用类属性、指标而创建面向支持应用系统、数据分析与数据挖掘的公共数据层
5 公共维度层 DIM 存放公共维度,个性维度由集市自行建设和维护
6 数据集市 集市基础层 DMX_BC 基于仓内已接入数据或新接入数据进行预汇总、预连接和预加工,快速响应应用层需求
                                                           (访问顺序:集市基础层 > 共性加工层 > 整合明细层)

二、详细说明

 

 

 

2.1 数据缓冲层-STG

 

1、功能定义:Stage,又称数据中转区,该层通过ETL过程获取源业务系统的数据增量,按日存储明细数据。为ODS层提供基础数据。

2、设计原则

a)统一数据源接口,按天保存细节数据;

b)有较快的响应速度,重点保证数据的快速、准确入库;

c)按照业务系统划分;

d)数据粒度与源业务系统保持一致;

e)不对外开放。

3、存储策略

a)增量方式存储;

b)永久保留,但对超期数据进行归档处理。

2.2 贴源明细层-ODS

 1、功能定义:该层负责合并、存储生产系统历史至今数据,按照业务归属组织数据,并进行脱敏及脏数据清洗处理。

a)起到隔离作用,屏蔽源系统数据结构变更、切库迁移等技术性变更

b)为后续主题模型、应用集市和数据探索区提供基础数据支撑

2、设计原则

a)按照业务系统划分

b)数据粒度与源系统保持一致

c)可按日、月、季等进行分表

d)脱敏及关联列处理

3、存储策略

a)增量方式存储

b)数据保留时间依据实际业务需求而定

2.3 整合明细层-DWD

1、功能定义:该层按照主题划分对核心业务数据进行企业级整合,在保持原有数据粒度的基础上,完成标准化(维度、代码)以及数据预管理操作。

2、设计原则

a)混合方式建模,多数以逆范式宽表落地

b)本层开始标准化

c)支持轻度业务变化的隔离

d)支持预关联及适当的预计算操作

e)围绕核心业务数据,分主题进行组织和建设

f)包括当期的和较长的时间的历史数据

g)消除了业务系统间数据的不一致性,保持原子粒度

h)兼顾存储空间占用

3、存储策略

a)存储方式以增量及快照表为主

b)快照数据保留时间视实际业务需求及存储规划而定

2.4 共性加工层-DWS

1、功能定义:该层基于应用集市沉淀的通用类属性、指标而创建的,面向支持应用系统、数据分析与数据挖掘的公共数据层

2、设计原则

a)体现数据模块化原则

b)集市共性需求下沉,统一公共数据出口

c)减少上层对ODS的依赖

d)以汇总、聚合等升维操作为主

e)同时存在粗、细粒度的汇总加工数据

f)围绕数据总线建设

g)维度建模,星型模型

3、存储策略

a)存储方式以增量及快照表为主

b)快照数据保留时间视实际业务需求及存储规划而定

2.5 其它

1、维度层IDM

功能定义:维度是对具体分析对象的分析角度,维度要具备丰富的属性,历史信息的可追溯性,对通用的维表要保持一致性

2、敏感处理层SDP

功能定义:负责敏感数据加工处理,仅允许脱敏后的特征结果落地存储,该层的使用及访问均受到严格管控

3、数据补录层ADD

功能定义:用于支撑数据补录需求,为线下产生的小批量业务数据提供快速接入通道

posted on 2023-02-23 11:17  哈哈才是我  阅读(251)  评论(0编辑  收藏  举报