随笔分类 - DW
摘要:一、什么是拉链表 拉链表是一种数据模型,拉链表是针对数据仓库设计中表存储数据的方式而定义的,记录一个事物从开始,一直到当前状态的所有变化的信息; 拉链表可以避免每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据的一种常见方式; 拉链表是维护历史状态,以及最新状态数据的一种表,拉链表根据拉
阅读全文
摘要:一、建模方法论 数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你在更高的维度去看的话,所有的划分都是为了更好的管理。 1.访问性能 能够快速查询所需的数据,减少数据I/O。 2.数据成本 减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。 3.使
阅读全文
摘要:一、数据采集&ODS 1、没有时间字段的表(如:库存表),可以使用镜像采集,采集每一天的数据。 2、有时间字段的表: (1)如果有修改时间字段,我们可能需要考虑他的修改时间,可以使用他的修改时间来进行采集,比如采集前三个月、前一个月的、前七天的、前一天的; (2)如果没有其他时间字段,我们可以采集他
阅读全文
摘要:表格命名规范: 1、中间表 table_name使我们任务中目标表的名字,通常来说一个任务只有一个目标表,通常会遇到需要补全维度的表,这里使用dim结尾。 规范:mid_table_name_[0~9 | dim] 3、临时表 临时表是临时测试的表,是临时使用一次的表,就是暂时保存下数据看看,后续不
阅读全文
摘要:数据仓库(DW):是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现的存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析,辅助领导做决策。在数据库已经大量存在的情况下,它是一整套包括了ETL、调度、建模在内的完整的理论
阅读全文

浙公网安备 33010602011771号