随笔分类 -  DW

摘要:一、什么是拉链表 拉链表是一种数据模型,拉链表是针对数据仓库设计中表存储数据的方式而定义的,记录一个事物从开始,一直到当前状态的所有变化的信息; 拉链表可以避免每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据的一种常见方式; 拉链表是维护历史状态,以及最新状态数据的一种表,拉链表根据拉 阅读全文
posted @ 2023-05-04 14:57 小王同学学编程 阅读(491) 评论(0) 推荐(0)
摘要:一、建模方法论 数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你在更高的维度去看的话,所有的划分都是为了更好的管理。 1.访问性能 能够快速查询所需的数据,减少数据I/O。 2.数据成本 减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。 3.使 阅读全文
posted @ 2023-02-14 10:56 小王同学学编程 阅读(230) 评论(0) 推荐(0)
摘要:一、数据采集&ODS 1、没有时间字段的表(如:库存表),可以使用镜像采集,采集每一天的数据。 2、有时间字段的表: (1)如果有修改时间字段,我们可能需要考虑他的修改时间,可以使用他的修改时间来进行采集,比如采集前三个月、前一个月的、前七天的、前一天的; (2)如果没有其他时间字段,我们可以采集他 阅读全文
posted @ 2023-02-02 13:09 小王同学学编程 阅读(34) 评论(0) 推荐(0)
摘要:表格命名规范: 1、中间表 table_name使我们任务中目标表的名字,通常来说一个任务只有一个目标表,通常会遇到需要补全维度的表,这里使用dim结尾。 规范:mid_table_name_[0~9 | dim] 3、临时表 临时表是临时测试的表,是临时使用一次的表,就是暂时保存下数据看看,后续不 阅读全文
posted @ 2022-11-03 15:14 小王同学学编程 阅读(328) 评论(0) 推荐(0)
摘要:数据仓库(DW):是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现的存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析,辅助领导做决策。在数据库已经大量存在的情况下,它是一整套包括了ETL、调度、建模在内的完整的理论 阅读全文
posted @ 2022-08-21 21:33 小王同学学编程 阅读(290) 评论(0) 推荐(0)

levels of contents