随笔分类 - ●数据仓库
摘要:为何要建数据仓库数据仓库整体架构数据仓库—分层 数据仓库—STG层数据仓库—ODS层数据仓库—DWD层数据仓库—DWS层dws层示例 数据仓库—DWS层数据仓...
阅读全文
摘要:最近在监控中发现HiveServer2连接到zookeeper里的连接持续上涨,很奇怪,虽然知道HiveServer2支持并发连接,使用ZooKeeper来管理Hive表的读写锁,但我们的环境并不需要这些,我们已经关闭并发功能,以下是线上的配置,甚至把这些值都改成fi...
阅读全文
摘要:This article explains how to configure the following settings in Hive:hive.server2.session.check.intervalhive.server2.idle.operation.t...
阅读全文
摘要:一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。 事实表是星型模型的核心,事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。事实表中存放的大量数据,是同主题密切相关的、用户最关心的度量数据。星级酒店最需要关注...
阅读全文
摘要:在统计分析系统中,维度:指人们分析事物的角度。比如,分析活跃用户,可以从时间的维度,也可以从地域的维度去看,也可以时间、地域两个维度组合去分析。不同维度有的是相互独立的,比如时间维度和地域维度;但有些维度是有层次关系的,比如省份维度和城市维度。有层次关系的维度,就可以...
阅读全文
摘要:1. 什么是数据集市?数据集市与数据仓库的区别? 数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time...
阅读全文
摘要:异常信息如下:java.io.IOException: Failed on local exception: java.nio.channels.ClosedByInterruptException; Host Details : local host is: "ha...
阅读全文
摘要:在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp)其中,数据仓库(DW)起到了数据大集中的作用。通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小时一次(...
阅读全文
摘要:数据仓库建设步骤Posted on 2015-03-04 10:18 xuzhengzhu 阅读(1164) 评论(0) 编辑 收藏1.系统分析,确定主题确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的...
阅读全文
摘要:数据仓库建模:定义事实表的粒度Posted on 2015-08-25 09:03 xuzhengzhu 阅读(28) 评论(0) 编辑 收藏维度建模中一个非常重要的步骤是定义事实表的粒度。定义了事实表的粒度,则事实表能表达数据的详细程度就确定了。定义粒度的例子如下:...
阅读全文
摘要:做大做强事实表,做小做弱维表;分布式模式-维度建模新原则 (1)以值代键:针对键值唯一的维表,除非必要,否则不引入维表,如IP地址维表,采用IP作为维表的主键,事实表中存储IP值; (2)合理分表:传统关系型数据仓库存在多表整合的冲动,如上图Event事实...
阅读全文
摘要:一、概述 多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式,本文以实例方式展示三者的模式和区别。二、星型模式(star schema) 星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)。星型...
阅读全文
摘要:异常堆栈如下:2015-11-24 16:49:11,495 ERROR org.apache.hive.service.cli.operation.Operation: Error running hive query:org.apache.hive.service...
阅读全文
摘要:一、引言 最近在整理理大数据模式下的数据仓库数据模型,资料来自互联网和读过的数据仓库理论和实践相关。二、3NF(1)1NF-无重复的列 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。 如果出现...
阅读全文