阿里OneData构建数据指标体系

数据指标来辅助业务决策

GMV、日活用户、月活用户、PV、UV、页面停留时长

OneData指标规范

 

以维度建模作为理论基础,构建总线矩阵,定义业务域、数据域、业务过程、度量/原子指标、维度、维度属性、修饰词、修饰类型、时间周期、派生指标等。

业务域:比数据域更高维度的业务划分方法,适用于特别庞大的业务系统,且业务板块之间的指标或业务重叠性较小。例如用车业务板块包含乘客端、司机端,电商业务板块包含商城、返利模块。

业务过程:业务过程可以概括为一个个不可拆分的行为事件,如下单、支付、评价等业务过程/事件。这里的事件跟埋点的事件类似,详情可查看

业务域倒还能理解,简单来说就是对不同业务的分类;业务过程也容易理解,相当于画业务流程图

数据域:是联系较为紧密的数据主题的集合,是对业务对象高度概括的概念层归类,目的是便于数据管理与应用。简而言之,数据域就类似于我们电脑桌面要建立不同的文件夹来存储数据,这些个文件夹名就是数据域。

维度:是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,可以从who-where-when-what层面来看。

维度属性:维度属性隶属于维度,相当于维度的具体说明,如用户维度中性别为男、女。

修饰词:指除了统计维度以外指标的业务场景。

修饰类型:对修饰词的抽象划分。

简而言之,维度和修饰都可以理解为原子指标的一些限定条件,懂sql的会更好理解一些,一般是写sql时,放在where语句后边的。

度量/原子指标:原子指标和度量含义相同,某一业务行为事件下的度量,是业务定义中不可拆分的指标,如注册数。

时间周期:用来明确数据统计的时间范围或是时间点,如最近30天、自然周、截至当日等。

指标类型:包含原子指标、派生指标。原子指标 = 行为事件+度量派生指标 = 一个原子指标+多个修饰词+时间周期

例如:原子指标=完单量,派生指标=近一周iOS乘客完单量,包含时间周期=近一周,修饰词=iOS,维度=乘客,原子指标=完单量。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

 

 

模型设计

此时主导的是我们的模型设计工程师,按照阿里的OneData建模理论的指导,模型设计工程师会采用三层建模的方式把数据更加科学的组织存储。分为 ODS(操作数据层),DWD(明细数据层)、DWS(汇总数据层)、ADS (应用数据层),这是业务对数据分层常用的模型。

阿里的一套针对指标的规范定义,让大家在一个标准下看数据消除歧义(指标拆分体系)

 

 

数据域:面向业务的大模块,不会经常变。比如我们公司有环贸快版打版服务、亿订电商业务、供应链业务等等大的业务模块类似产品线。

业务过程:如电商业务中的下单、支付、退款等都属于业务过程。

时间周期:就是统计范围,如近30天、自然周、截止到当天等。

修饰类型:比较好理解的如电商中支付方式,终端类型等。

修饰词:除了维度意外的限定词,如电商支付中的微信支付、支付宝支付、网银支付等。终端类型为安卓、IOS等

原子指标:不可再拆分的指标如支付金额、支付件数等指标

维度:常见的维度有地理维度(国家、地区等)、时间维度(年、月、周、日等)

维度属性:如地理维度中的国家名称、ID、省份名称等。

派生指标:原子指标+修饰词+时间周期就组成了一个派生指标。

 

 

关于数据指标还有two more thing要谈:

1. 怎么分出指标的重要性。绩效考核指标,部门负责人关注的指标

2. 关于虚荣指标。

PV、UV、月活、总用户数、总商品数

主路径的专户率,访问-商品列表、商品列表-商品详情、商品详情-加购、加购-下单转化率:降低流失就能提高交易额的。

用户的次日留存、7日留存率(新用户7日后是否再次访问)、30日留存率:等能直接反应用户的质量和运营做的好坏。

商品的动销率(销售款数/上架款数):能直接反映这批商品的好坏。

基于阿里OneData的模型设计体系

首先你要知道这些概念。什么是数据仓库、数据仓库和数据库的区别、数据仓库的分层、数据模型的定义。

数据仓库与数据库的区别

 

 阿里的数据分层分为:ODS、DWD、DWS、ADS。

ODS(操作数据层):是数据仓库第一层数据,直接从原始数据过来的,经过简单地处理,爆款率涉及到的表结构比如订单表、专场表、商品表、用户表等。

DW*(汇总数据层):这个是数据仓库的第二层数据,DWD和DWS很多情况下是并列存在的,这一层储存经过处理后的标准数据。增加了维度形成了统计宽表,比如专场的爆款商品有哪些。

ADS(应用数据层):这个是数据仓库的最后一层数据,为应用层数据,直接可以给业务人员使用。比如某日某个专场爆款率是多少、总的爆款率是什么。

 

 数据模型有很多,如:范式模型、维度模型、Data Vault 

星型模型的基本概念

星型模型中有两个重要的概念:事实表和维度表。

 



posted @ 2021-11-22 17:17  mengxh是大神  阅读(1139)  评论(0编辑  收藏  举报