数据仓库的几个概念对比

一,ETL 和 ELT:

很明显顺序不同,ETL 首先把数据从源系统导入到暂存服务器,然后放入目标系统。 然后,ELT 把数据直接加载到目标系统。

ETL 适用于 预定前提的关系型结构化数据,而ELT适用于 可扩展的结构化和非结构化数据源。前者适用于小规模数据,不提供数据湖支持,后者适用于大规模数据,支持数据湖。在传统的数仓系统时代,ETL使用更加广泛。进入大数据时代,开始使用ELT。

ETL更容易实施,而ELT 需要更加针对性的技能取实施和维护。

我任务最大的区别在于, Transformation 步骤发生在哪个系统。ETL 发生在 专用的 暂存服务器,ELT 发生在目标系统(比如 HIVE 数仓)。

 

二,数据仓库和数据集市:

 

 数仓数据集市
1.中心化系统分散化系统
2.稍稍反规范化大部分的反规范化
3.至上而下模型至下而上模型
4.构建过程比较难容易
5.星系模型使用星型模型和雪花模型
6.模型更灵活不灵活
7.天生面向数据的面向项目的
8.长生命周期短生命周期
9.数据以细节数据保存数据以概括性数据保存(比如选取适用本项目的特定字段)
10.数据量大比数仓小
11. 来源不同的系统一般数据来源于数仓

三,

 

posted @ 2022-10-20 14:34  gaussen126  阅读(73)  评论(0编辑  收藏  举报