随笔分类 -  数据仓库

摘要:1.定义 拉链表是一种数据库设计模,用于储存历史数据和分析时间维度的数据。 所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 关键点: 储存开始时间和结束时间。 开始时间和结束时间首尾相接,形成链式结构。 拉链表一般用于解决历史版本查询的问题,也可用于解决数值区间问题,查 阅读全文
posted @ 2019-08-17 13:03 wqbin 阅读(6783) 评论(0) 推荐(0)
摘要:所有表从大方向上有 1.表的验证:指标临时表的验证和 指标合并表的验证 2.数据验证:数据总量的验证,数据质量的验证(连续指标和离散指标) 阅读全文
posted @ 2019-07-31 11:09 wqbin 阅读(817) 评论(0) 推荐(0)
摘要:在数据分析数据差异的时候 经常用到一个图叫做迁移矩阵。 其中里面的值可以是数量也可以是百分比,我们可以从一个时间点明确的看到在另一个时间点或者另一个时间点 子类之间数量迁移。 比如这次我在公司与业务核对星级客户数据的时候就用sql实现了迁移矩阵 思路就是对数据先进行行转列,再进行统计。 阅读全文
posted @ 2019-07-31 11:01 wqbin 阅读(1194) 评论(0) 推荐(0)
摘要:数据有很多种下发方式: 简单的来说分为增量和全量。 全量获取: 当表是一个全量分区表: 当表是一个增量分区表: 当表是一个拉链表: 增量获取: 但是往往非大数据系统无法一口气吃掉千万级别的数据量。 一般会采取增量下发的方式。 当表是一个增量分区表: 当表是一个全量分区表: 需要对今天的分区数据和昨天 阅读全文
posted @ 2019-07-30 15:12 wqbin 阅读(17207) 评论(0) 推荐(0)
摘要:1.数据中心整体架构 数据中心整体架构 数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。 2.数据仓库的ODS、DW和DM概念 ods、dw、dm区 阅读全文
posted @ 2019-06-21 10:22 wqbin 阅读(11899) 评论(0) 推荐(0)
摘要:如何最有效的判断 一个表中的数据不在另一个表中 两个方法一个是join 另一个是 exist 方法 阅读全文
posted @ 2019-02-21 21:23 wqbin 阅读(1484) 评论(0) 推荐(0)
摘要:预热: 我们先从几个物理概念入手理解什么是流量,存量,增量 (1)存量:系统在某一时点时的所保有的数量; (2)流量:是指在某一段时间内流入/出系统的数量 (3)增量:则是指在某一段时间内系统中保有数量的变化 (4)增量=流入量--流出量 (5)本期期末存量=上期期末存量+本期内增量 正题 一般公司 阅读全文
posted @ 2019-01-05 12:19 wqbin 阅读(23069) 评论(0) 推荐(3)
摘要:1.数仓建模的目标 访问性能:能够快速查询所需的数据,减少数据I/O数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本使用效率:改善用户应用体验,提高使用数据的效率数据质量:改善数据统计口径的不一致性,减少数据计算错误的可能性,提供高质量的、一致的数据访问平台 阅读全文
posted @ 2019-01-04 09:28 wqbin 阅读(1542) 评论(0) 推荐(0)
摘要:需求:同事让我写一个python代码实现对某一文件下所有sql文件中的sql语句进行扫描,观察每个sql判断每个table是作为中间表,结果表还是依赖表。 思路当然是用正则去匹配; 我们先复习一下什么是三个表究竟是啥? 阅读全文
posted @ 2019-01-03 22:07 wqbin 阅读(1501) 评论(0) 推荐(0)
摘要:第一范式(1NF) (必须有主键,列不可分) 数据库表中的任何字段都是单一属性的,不可再分 create table aa(id int,NameAge varchar(100)) insert aa values(1,''无限 女 '') 没有达到第一范式 create table aa(id i 阅读全文
posted @ 2018-10-12 12:56 wqbin 阅读(617) 评论(0) 推荐(0)