数据仓库分层
一、为什么要对数据仓库进行分层?
我们对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个清晰的掌控,详细来讲有以下几个原因:
1.清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能够更方便的定位和理解。
2.空间换时间:通过建设多层次的数据模型供用户使用,避免用户直接使用底层操作型数据,可以更高效的访问数据。
3.把复杂问题简单化:将一个复杂任务分解成多个步骤来完成,每一层只处理单一的步骤,简单容易理解,而且便于维护数据的准确性,当数据出现问题后,不用修复所有的数据,只需要从有问题的步骤开始修复。
4.便于处理业务的变化:随着业务的变化,只需要调整底层的数据,对应用层对业务的调整零感知。
二、数据仓库标准上可以分为ODS、DW、DM和APP四层
1. ODS层(近源层、临时存储层):从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理完后的历史数据。表结构与源系统表结构高度相似,通常在ods层主要会做字段的筛选,枚举值转换,编码统一,异常&缺失数据处理等操作
2.DW层(中间层):按主题建模(域->主题)的明细数据层,数据粒度与ods层一致。
3.DM层(数据集市层):集市层是按照业务主题、分主题构建出来的、面向特定部门或人员的数据集合。
4.APP(应用层):这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说,则并不一定会覆盖所有业务数据。

浙公网安备 33010602011771号