随笔分类 -  数据仓库

摘要:归纳起来就是 主题域设计 分层设计 维度建模反第三范式操作,星型模型和星座模型 分区设计 依照逻辑模型,在数据库中进行建表、索引等。数据仓库,为了满足高性能的需求,可以增加冗余、隐藏表之间的约束等反第三范式操作。 这一阶段,主要针对的是数据库、硬件、性能。 范式: 第一范式:数据库表的字段都是单一属 阅读全文
posted @ 2017-03-18 10:10 晨柳溪 阅读(1812) 评论(1) 推荐(0)
摘要:目录 前言 维度表的类型 维度表的使用场景 维度表的键和属性 小结 前言 维度表的类型 维度表的使用场景 维度表的键和属性 小结 前言 前面从宏观的角度,讲述了7何问题。那么从微观的角度,具体的改怎样的来建设一致性维表呢? 本篇从表的类型和使用场景,以及建设过程中键的设置和属性的设置做一些总结。 维 阅读全文
posted @ 2016-12-13 23:42 晨柳溪 阅读(1432) 评论(0) 推荐(0)
摘要:目录 前言 What一致性维度 When一致性维度 Where一致性维度 How一致性维度 Why一致性维度 小结 前言 上一篇提到了数据仓库建设中的维度建模方法,了解了总线架构的基础是一致性维度。本篇将具体的总结一致性维度的5W问题。 What一致性维度 维度一直是大家所熟知的,但是前面加上了“一 阅读全文
posted @ 2016-11-25 17:04 晨柳溪 阅读(4430) 评论(0) 推荐(0)
摘要:目录 前言 维度建模 星型模型 小结 前言 维度建模是Kimball提出来的经典的数据仓库建模思想。维度建模提倡针对某一主题,通过建设维度和事实来快速建设数据仓库。与维度建模相对应的自然是Inmon的范式建模。在上篇也提到范式建模非常适合应用于中间明细层的建设,那么在DW/DM层为什么选择使用维度建 阅读全文
posted @ 2016-11-21 22:50 晨柳溪 阅读(4883) 评论(0) 推荐(0)
摘要:目录 前言 使用情景 如何来范式建模 使用的效果 小结 前言 上篇讲述了一些抽象的概念模型和逻辑模型设计的东西,接下来就该讲述如何来一步一步的利用Inmon和Kimball数据仓库的理论来建设数据仓库的模型,主要分几块吧,一个是范式建模,然后是维度建模(分几篇总结),最后是因地制宜,按照自己的平台来 阅读全文
posted @ 2016-11-17 22:06 晨柳溪 阅读(5087) 评论(0) 推荐(0)
摘要:目录 前言 原则 内容 小结 前言 上一篇讲述了数据仓库模型设计中的业务建模和领域概念建模,接下来就自然而然的来到了逻辑数据建模LDM(Logical Data Model)的阶段,这个阶段可以说是建模最重要的一环(也就是维度建模)。逻辑建模涉及到了整个数据仓库所有层次的模型设计,从DW到DM甚至到 阅读全文
posted @ 2016-11-11 00:56 晨柳溪 阅读(3989) 评论(0) 推荐(0)
摘要:目录 前言 业务建模 概念模型 小结 前言 上一篇在数据仓库在技术架构设计和产品选择方面进行了一些总结。从这一篇将开始数据路径上的学习和思考吧。数据仓库作为一种产品,在不同的公司或者部门设计出来是不一样的。但是设计的思想是相通的。按照层次关系划分,数据路径上包括业务建模,概念模型设计,逻辑模型设计和 阅读全文
posted @ 2016-11-11 00:55 晨柳溪 阅读(6682) 评论(0) 推荐(0)
摘要:上一篇开了个头,从Kimball数据仓库生命周期方法角度,列出了数据仓库搭建的核心步骤,从这一篇开始将讲述技术路径:技术架构设计和产品选择和安装。 首先先以某公司的数据仓库的总体架构图的视角,了解整个数据仓库搭建起来后结构大体的样子。 ODS层是从数据源抽取(E),经过格式的转换(T),最后加载(L 阅读全文
posted @ 2016-11-11 00:54 晨柳溪 阅读(19951) 评论(0) 推荐(2)
摘要:虽然一直在做数据仓库开发,但是还没有从0开始搭建过数据仓库,所以就想通过学习和思考来搭建一个还不错的数据仓库。比较经典的当属Kimball生命周期方法,它为我们在数据仓库开发过程中提供了路标的作用,生命周期方法的总体结构的核心内容有 技术架构设计 产品的选择和安装 维度建模 物理设计 ETL设计和开 阅读全文
posted @ 2016-11-11 00:51 晨柳溪 阅读(4295) 评论(0) 推荐(0)
摘要:转载于http://wenku.baidu.com/link?url=hXWQyKcbE9Y8cUqjTK4r_iCTn18UU63YRdzlCTmf2ZloY5RVFhZYRhN-7bUrgGGjwe7FkjymUUJXhQ08nbq8VgYX-bve8_Bgfjy9TpsPIhK 在Kimbal 阅读全文
posted @ 2016-11-06 19:47 晨柳溪 阅读(4183) 评论(0) 推荐(2)
摘要:从此处转载 http://blog.sina.com.cn/s/blog_615f9dba0100f67p.html 比尔·恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。他是“企业信息工厂”的合作创始人与“政府信息工 阅读全文
posted @ 2016-11-06 19:19 晨柳溪 阅读(6196) 评论(1) 推荐(0)
摘要:数据仓库中常见的模型有:范式建模,雪花模型,星型建模,事实星座模型. 星型模型 星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照维度进行了 阅读全文
posted @ 2016-10-29 20:25 晨柳溪 阅读(37803) 评论(0) 推荐(2)
摘要:结合Inmon和Kimball的集线器式和总线式的数据仓库的优点,分层为ODS【-MID】-DW-DM-OLAP/OLAM/app ODS层是将OLTP数据通过ETL同步到数据仓库来作为数据仓库最基础的数据来源。在这个过程中,数据经过了一定的清洗,比如字段的统一,脏数据的去除等,但是数据的粒度是不会 阅读全文
posted @ 2016-10-29 11:06 晨柳溪 阅读(22911) 评论(2) 推荐(2)
摘要:范式建模 Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据建设原子数据的数据仓库EDW,EDW不是多维格式的,不方便上层应用做数据分析,所以需要通过汇总建设成多维格式的数据集市层。优势:易于维护,高度集成;劣势:结构死板,部署周期较长 范式建模应用在EDW层 一个符合第三范式的关系必须... 阅读全文
posted @ 2016-10-28 21:46 晨柳溪 阅读(19390) 评论(0) 推荐(0)
摘要:数据仓库有很多类型的架构方式,按照发展的历程上,主要有如下几类标志性。 独立的数据集市架构。 在最早期的数据仓库建设中,大多是以部门为单位搭建数据仓库,也就是数据集市,供整个部门使用。这样能够很快的构建好数据仓库,但是缺点是很容易产生不同部门因数据计算口径不同而导致的数据产出结果不一致。当然对于小公司来讲,构建一个公司级的数据集市也是能够满足需求的。 联邦式的数据仓库架构。不同的部门构建出不同... 阅读全文
posted @ 2016-10-28 21:20 晨柳溪 阅读(2031) 评论(0) 推荐(0)
摘要:数据库是最常听到的名词之一了,但是当提到数据仓库的时候,就会疑问,数据仓库是数据库吗? 如果不是,数据仓库是什么,用来干什么的呢? 平时遇到这个问题一般还真是不好简单明了的回答,因为也的确不是一两句话说的清的。那么数据仓库到底是什么呢,跟数据库有什么区别呢? 数据仓库是什么呢? 数据仓库是面向主题的 阅读全文
posted @ 2016-10-28 16:38 晨柳溪 阅读(1819) 评论(0) 推荐(1)
摘要:企业数据的管理包含主数据,元数据,交易数据。 主数据是描述企业核心实体的基础数据,比如客户、用户、产品、员工等。 它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。 比如一个产品系统,它处理的基本数据就是生产数据。HR系统处理的基本数据是雇员;CRM 阅读全文
posted @ 2016-09-11 23:41 晨柳溪 阅读(1417) 评论(0) 推荐(0)
摘要:在hive里面可以通过严格模式防止用户执行那些可能产生意想不到的不好的效果的查询,从而保护hive的集群。 用户可以通过 set hive.mapred.mode=strict 来设置严格模式,改成unstrict则为飞严格模式。 在严格模式下,用户在运行如下query的时候会报错。 1. 分区表的 阅读全文
posted @ 2016-08-29 11:43 晨柳溪 阅读(17020) 评论(0) 推荐(0)