数仓理论知识学习
https://blog.csdn.net/qq_46893497/article/details/113964444
目录
背景:
对数仓理论的知识实在是很模糊,所以咨询了一下公司的数仓大神,先对理解进行白话文输出:
事实表:
如订单表,借款记录表等等,各个维度的数据在一起,称为事实表。
订单表字段:id 用户名 商品编码 日期 价格 状态 等等。
维度表:
用户名,就算一个维度,对应的用户表,就是维度表。商品编码是一个维度 日期是一个维度等。可以group by 的字段都属于维度字段
特别说明:价格这种属于修饰词,不存在什么维度,他是指标重点需要统计的。
原子指标:
就是需要统计的东西,并不一定要具体到某个表,比如订单的原子指标为:订单量 金额等
派生指标:
对原子指标的统计:比如一个月的订单量 或 一个月的退款订单量 。 概括为:原子指标 + 维度修饰 + 业务限定
衍生指标:
对派生指标的概率,比如同比 环比 等
业务限定:
就是where后面的筛选条件
数据域:
一定是在数仓进行之前,就定好了
比如对于电商来说,数据域可以分为以下:
用户域 交易域 运营域 等按照某个具体的业务来划分
再比如表市场:
设备域 交易域 。设备域:就是各种设备,工商 民用 带远传 不带远传等
主题域:
是各个数据域进行的一个抽象,满足某一个主题。
比如上面:工商交易域:就属于一个主题域。
数据集市:
就是各种维度的汇总,一个宽表。
比如:有一张这样的表
维度(每月的数据 ) 订单量 用户量 交易量 交易金额 退款量 退款金额 等等
这样很多数据从数据集市就可以拿到了。
对数据域和主题域进行二次讲解:
比如:有一家菜馆,厨房里面每天都要备很多菜,那么肯定要划分,分类管理:肉类 蔬菜类 海鲜类 这就属于数据域
按照客人的口味:徽菜 川菜 杭帮菜 这就属于主题域。主题域是已经做好的菜,数据域是还没做之前的划分。主题域和主题域之间可能会重叠,
比如:徽菜和杭帮菜 都有清蒸鲈鱼。
数据分层:
按照常见的:ODS DWD DWS ADS 很多公司的数仓做到DWS就结束了
ODS:原始层数据,就是把各个地方数据汇总到一起,便于查找,一般放在HDFS上 。白话文:比如一个文件下:word excel ppt等来自各式各样的数据。
DWD:维度数据补全,明细,比如用户表只有,公司id ,则会不全,公司名称,联系电话 地址 公司编码等,使数据更加明细
DWS:轻度的汇总,按照不同的维度进行汇总,比如用户的订单量, 进一个月的订单数等等
ADS :一般对应某个主题域,具体场景分析。

浙公网安备 33010602011771号