数仓主题和主题域

1.数仓主题是什么?

数仓主题(Subject)是在较高层次上将企业信息系统中某一分析对象(重点是分析的对象)的数据进行整合、归类并分析的一种范围,属于一个抽象概念,简单点说每一个主题对应一个宏观分析领域。

下面举例说明一下:对于一个erp系统而言,“销售分析”就是一个分析领域,这个“销售分析”所涉及到的分析对象有商品、供应商、顾客、仓库等,那么数仓主题就确定为商品主题、供应商主题、顾客主题、仓库主题,“销售分析”就可以作为一个主题域;

如果“产品分析”是一个分析领域,“产品分析”所涉及到的分析对象为商品、地域、时间、类别等,那么数仓的主题可以确定为商品主题、地域主题、时间主题、类别主题,“产品分析”可以作为一个主题域。

2.数仓主题域是什么呢?

主题域通常是联系较为紧密的数据主题的集合,可以根据业务的关注点,将这些数据主题划分到不同的主题域,这种划分个人感觉与Kimball思想更为相似,自下而上的方式,根据业务需求分析视角进行划分。

其实这里市面上,也有一些不同的描述,上面对主题域的描述被归于集合论,还有一种叫做是边界论,这里稍微扩展下:

边界论的论点是“主题域是对某个主题进行分析后确定的主题的边界“,这点个人感觉和 Inmon 指导思想类似,理清主题之间的边界,由ER模型进行逻辑转化,对某一主题域的分析,需要先确定这个主题的关系边界,然后再进行逻辑建模。

我的话觉得两者并不矛盾,只是所站的视角不同,边界论是先从细微处也就是微观延伸到宏观,而集合论则是从宏观到微观的过程。

2.主题和主题域的关系

 

可以显而易见地看出,主题域是一个更大的概念,主题是略次之,实体最小,这里的实体表示的是实体对象(对应企业中某一宏观分析领域所涉及的分析对象),我的理解在维度建模的方法论上也可以说实体和维度某些概念是相似的。

 

 

 

posted @ 2021-09-30 13:08  苏su  阅读(1584)  评论(0编辑  收藏  举报