摘要: 前言 阅读本文前,请先回答下面两个问题: 1. 数据库和数据仓库有什么区别? 2. 某大公司Hadoop Hive里的关系表不完全满足完整/参照性约束,也不完全满足范式要求,甚至第一范式都不满足。这种情况正常吗? 如果您不能五秒内给出答案,那么本文应该是对您有帮助的。 数据库的"分家" 随着关系数据 阅读全文
posted @ 2018-04-12 07:16 谦如尘埃风过隙 阅读(362) 评论(0) 推荐(0) 编辑
摘要: 前言 确实,关于SQL的学习资料,各类文档在网上到处都是。但它们绝大多数的出发点都局限在旧有关系数据库里,内容近乎千篇一律。而在当今大数据的浪潮下,SQL早就被赋予了新的责任和意义。 本篇中,笔者将结合过去在A公司和T公司大数据部门的学习工作经历,对传统SQL语法进行一次回顾性学习。同时,思考这门语 阅读全文
posted @ 2018-04-11 18:53 谦如尘埃风过隙 阅读(533) 评论(0) 推荐(0) 编辑
摘要: 前言 在前两篇中,主要讲了ER建模和关系建模。在具体分析如何用数据库管理软件RDBMS(Relational Database Management System)实现这些关系前,我想有必要思考下面这个问题: 为什么要这么麻烦?为什么又是ER建模又是关系建模的? 本篇的出发点就是回答这个问题。然而某 阅读全文
posted @ 2018-04-11 17:48 谦如尘埃风过隙 阅读(1527) 评论(0) 推荐(2) 编辑
摘要: 前言 ER建模环节完成后,需求就被描述成了ER图。之后,便可根据这个ER图设计相应的关系表了。 但从ER图到具体关系表的建立还需要经过两个步骤:1. 逻辑模型设计 2. 物理模型设计。其中前者将ER图映射为逻辑意义上的关系表,后者则映射为物理意义上的关系表。逻辑意义上的关系表可以理解为单纯意义上的关 阅读全文
posted @ 2018-04-11 17:13 谦如尘埃风过隙 阅读(584) 评论(0) 推荐(0) 编辑
摘要: 前言 在数据库建设过程中,哪一步最重要?绝大多数资料会告诉你,是需求分析阶段。这一步的好坏甚至直接决定数据库项目的成败。 需求分析阶段,也被称为ER建模(entity-relationship modeling)阶段,也常被称为需求可视化,概念建模等。这一阶段数据库系统开发人员将协同需求方以ER图的 阅读全文
posted @ 2018-04-11 15:38 谦如尘埃风过隙 阅读(709) 评论(0) 推荐(0) 编辑
摘要: 公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有: 1. 什么是数据仓库 1.1 数据仓库的概念 官方定义 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于 阅读全文
posted @ 2018-04-11 10:43 谦如尘埃风过隙 阅读(721) 评论(0) 推荐(0) 编辑
摘要: 1.主题的概念 主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域,因此这个数据仓库应用的主题就是“销售分析”。 面向主 阅读全文
posted @ 2018-04-11 10:37 谦如尘埃风过隙 阅读(14352) 评论(0) 推荐(0) 编辑
摘要: ODS设计指南 在ODS的概念定义中,已经描述了ODS的功能和特点,实际上ODS设计的目标就是以这些特点作为依据的。ODS设计与DW设计在着眼点上有所不同,ODS重点考虑业务系统数据是什么样子的,关系如何,在业务流程处理的哪个环节,以及数据抽取接口等问题。 第零步:数据调研 有关数据调研的内容和要求 阅读全文
posted @ 2018-04-11 09:40 谦如尘埃风过隙 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 随着IT向DT时代的转变,数据重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极重要的角色。而对于日益重视的数据,如何保障其质量也是业界普遍关注的话题。 1 数据质量保障原则 2 数据质量方法概述 阿里的业务复杂,种类繁多的产品每天产生数以亿计的数据,每天的数据量在PB级以上,而数据消费端的应 阅读全文
posted @ 2018-04-11 08:57 谦如尘埃风过隙 阅读(498) 评论(0) 推荐(1) 编辑
摘要: 1.元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进 阅读全文
posted @ 2018-04-11 07:54 谦如尘埃风过隙 阅读(819) 评论(0) 推荐(0) 编辑