数据仓库之设计
ETL增量加载
常见方法
1,时间戳加载:源表时间戳字段,首选。
2,日志表方式:源系统增加日志表记录数据更新信息
3,全表对比方式:
4,全量加载:DM层考虑采用,依据OLAP事实表进一步汇总
当作系统数据加载策略方案时,基于以上所列方法,及现有系统 考虑:
(1)、如果所集成OLTP系统为其他产商产品,则应尽量的降低因ETL而对现有系统产生的影响,及系统风险性。而性能的影响则可以通过两方面解决,一部分由硬件的升级进行解决,因为ETL除读表及写表操作外,所有转换均由ETL服务器在内存中完成,故高配置服务器将大大提升ETL运行速度;一部分由加载时机进行控制,加载时机采取在系统较为空闲时加载,同时并行多个加载等,可以降低对运行系统的影响。所以可以使用全表比对递增加载数据的方式作为此类系统的ETL数据加载规则。 (2)、如果原OLTP系统为自己开发产品,此次所作OLAP系统为在原系统上的系统,则可以考虑使用时辍或日志表方式,区别仅为对原系统的影响大小。
(3)、当数据实现递增加载时,OLAP系统中的聚合表,可由OLAP中的事实表数据二次 ETL产生,此时由于OLAP数据的完整性与准确性,可以使用全表删除插入方式。
建议采用方法:
1,采用全量初始抽数
2,采用时间戳抽取增量数据到临时表。Truncate后Insert.
3,从临时表抽取全量数据到目标表。Insert Or Upadate模式。
4,对比源表和目标表数据,把目标表存在的数据而源表不存在的数据打上删除标识。
维表代理主键
建模过程阶段:
业务模型-->概念模型 -->逻辑模型 LDM -->物理模型 PDM
模型验证
模型结构:
ROLAP关系模型:针对关系数据库,星型,雪花(维度表(通常是部分)规范化)
MROAP多维模型:针对多维数据库.
建模方法:
1,范式建模法:关系数据库,数据仓库建设
2,维度建模法:数据集市建设
3,实体建模法:业务建模和概念建模引用。
维度表:
继承超子类模型
历史信息的存储:列扩展,行扩展(推荐)
代理主键

浙公网安备 33010602011771号