数据仓库 之理论
一、为什么学数据仓库
- 数据不兼容,很难被整合
- 战略决策需要数据的分析
- 推荐系统

二、数仓定义
是一个面向主题的、集成的、非易失的、随时间变化的数据集合
1. 主题
>> 如“销售分析”主题
数据源可以表,可以视频、图片、日志
提取主题
>> 包含主题所有信息,抛弃无关数据

2. 集成

3. 非易失
非原始数据,乃拷贝形成

4. 随时间变化

三、数据仓库和数据库的区别

补充:3NF —— 数据库三大范式

补充:OLTP和OLAP区别


补充:hive一般不更新,但是硬要事务,需要建表语句中加"transactional=true"

四、数据仓库的架构
1. inmon:中间使用 数据库
2. Kimball

详见:https://www.cnblogs.com/dajiangtai/p/11718779.html
五、数据仓库的解决方案

六、数据仓库的建模
1)选择业务流程

2)声明粒度
建议最细粒度


3)确认维度 & 确认事实

-
多维模型:
(一)星型模型



(二)雪花模型




浙公网安备 33010602011771号