随笔分类 -  数据建模

摘要:摘自阿里大数据之路 什么是数据漂移 通常我们把从源系统同步进入数仓的第一层数据称为 ODS或者staging层数据,接入层 。 数据漂移是接入层数据的一个顽疾。 数据漂移定义:接入层ODS表同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据。 数据漂移出现的原因 通常落地数 阅读全文
posted @ 2021-01-09 15:00 foolangirl 阅读(3517) 评论(0) 推荐(0)
摘要:本文记录木东居士bilibili-数仓主题分享内容 P5.数据模型对比 1.范式建模 优点:节约存储、结构清晰、易于理解、适合关系型数据库 缺点:构建比较繁琐、查询复杂、不适合构建在大数据分布式环境下 业务数据往往是根据主键更新,范式建模更新比维度建模更新更简单 2.维度建模 优点:方便使用、适合大 阅读全文
posted @ 2021-01-05 23:48 foolangirl 阅读(475) 评论(0) 推荐(0)
摘要:本文记录木东居士bilibili-数仓主题分享内容 P1课程介绍 1.课程目标:独立从0到1建数仓;规划数仓发展路径;带好数仓团队 2.数据岗位的要求: 3.本课程内容: P2什么是数据仓库 1.数据仓库发展历史 2.什么是数据仓库 3.为什么建数据仓库 4.数据仓库 VS 数据中台 P3基础概念讲 阅读全文
posted @ 2021-01-05 22:48 foolangirl 阅读(278) 评论(0) 推荐(0)
摘要:本文记录木东居士bilibili-数仓主题分享内容 P1企业级数据仓库介绍 1. 数仓痛点 2. 数仓模型 类似ODS -> DW( DWD ->DWS) ->TDM ->ADS 调用原则:(跨层指APP不要直接调ODS 数仓规范 1.表命名规范: 业务域指业务范围划分,如银行的零售业务、对公业务; 阅读全文
posted @ 2021-01-04 23:13 foolangirl 阅读(746) 评论(0) 推荐(0)
摘要:本文记录木东居士数仓主题分享内容 分享地址:https://www.bilibili.com/video/av96469217 导读 技能干货:主题域划分规则;数据集市与主题域如何衔接;数据治理之数据标准化;数据中台;实时数仓;传统数仓与互联网数仓异同 职业发展:数仓困境-善战者无赫赫战功;除了技术 阅读全文
posted @ 2021-01-03 22:13 foolangirl 阅读(738) 评论(0) 推荐(0)
摘要:原帖地址: 漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现) 什么是拉链表 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史,存储的是事物最基本信息以及每条记录的生命周期。记录一个事物从开始,一直到当前状态的所有变化的信息。 等价于缓慢变化维的类型2:增加 阅读全文
posted @ 2020-11-11 19:13 foolangirl 阅读(696) 评论(0) 推荐(0)
摘要:为什么要设计数据分层 ——参考《一种通用的数据仓库分层方法》 这是数据仓库同学在设计数据分层时首先要被挑战的问题,类似的问题可能会有很多,比如说“为什么要做数据仓库?”、“为什么要做元数据管理?”、“为什么要做数据质量管理?”。当然,这里我们只聊一下为什么要做设计数据分层。 作为一名数据的规划者,我 阅读全文
posted @ 2020-11-10 20:59 foolangirl 阅读(971) 评论(0) 推荐(0)
摘要:1.定义: 维度表包含与业务过程度量事件有关的文本环境,即事件的5W1H:When,Where,Who, What,Why,How tips:避免在维度属性中使用空值(但这里注意空值NULL不关联,但空串字符会关联);事实表不同,事实表的度量可以为空,但外键不能存在空值,否则违背了参照完整性。 2. 阅读全文
posted @ 2020-11-09 19:55 foolangirl 阅读(907) 评论(0) 推荐(0)
摘要:1.定义: 事实涉及来自业务过程事件的度量,基本都是数值型。事实表中的每个事实行都是申明的粒度下描述的事件度量 2.事实分类: 1)可加:可按事实表任意维度汇总 2)半可加:可按事实表部分维度汇总。如库存、账户余额不能按时间维度汇总,但可按机构维度汇总 3)不可加:例如比率 3.如何判定一个值该不该 阅读全文
posted @ 2020-09-25 21:22 foolangirl 阅读(690) 评论(0) 推荐(0)
摘要:1.选择业务过程 业务过程是组织完成的操作型活动。(后面我们还会知道,事实表不仅仅可以描述业务操作,还可以是定义某些人参与了某些活动、某些人在某些公司工作过这类维度之间的关联关系,称无事实的事实表) 2.声明粒度 1)粒度用来确定某事实表中的每行表示什么,等价于物理表中的主键。比如超市销售事实表每行 阅读全文
posted @ 2020-09-24 20:34 foolangirl 阅读(1080) 评论(0) 推荐(0)
摘要:——从技术、架构、设计、运营、管理5个维度系统总结数据中台实现方法论 PART1前言(WHY) IT到DT 信息化演进之路,“让数据用起来” 数据中台3个核心认知 1.需要提升到基础设施的高度,进行规模化投入 ; 2.需要全新的数据价值观与方法论,形成平台级能力; 3.需要业务、数据、分析综合性人才 阅读全文
posted @ 2020-09-20 23:33 foolangirl 阅读(982) 评论(0) 推荐(0)