2019年10月28日

大数据调优

摘要: 1.distrbute by rand()或者加表中字段 distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,对应reduce的个数进行分发,默认是采用hash算法 阅读全文
posted @ 2019-10-28 10:08 ~handsome 阅读(161) 评论(0) 推荐(0) 编辑
2019年8月17日

数据仓库建模与ETL实践技巧

摘要: 一、数据仓库的架构 数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP系统的分析需求为目的。 数据仓库的架构模型包括了星型架构(图二:p 阅读全文
posted @ 2019-08-17 19:07 ~handsome 阅读(1702) 评论(0) 推荐(0) 编辑

数据仓库3级范式(3NF)基础

摘要: 一、引言 最近在整理理大数据模式下的数据仓库数据模型,资料来自互联网和读过的数据仓库理论和实践相关。 二、3NF (1)1NF-无重复的列 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。 如果出现重复的属性,就可能需要定义一个新的 阅读全文
posted @ 2019-08-17 19:06 ~handsome 阅读(2281) 评论(0) 推荐(0) 编辑

星型模式

摘要: 一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。 事实表是星型模型的核心,事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。事实表中存放的大量数据,是同主题密切相关的、用户最关心的度量数据。星级酒店最需要关注的是客户消费情况。为分析的需求,基 阅读全文
posted @ 2019-08-17 19:04 ~handsome 阅读(384) 评论(0) 推荐(0) 编辑

数据集市

摘要: 仓库的主要区别:数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。 数据仓库 数据集市 数据的来源 生产系统、外 阅读全文
posted @ 2019-08-17 19:04 ~handsome 阅读(793) 评论(0) 推荐(0) 编辑

大数据下的企业数据仓库建设

摘要: 为何要建数据仓库 数据仓库整体架构 数据仓库—分层 数据仓库—STG层 数据仓库—ODS层 数据仓库—DWD层 数据仓库—DWS层 dws层示例 数据仓库—DWS层 数据仓库—DIM层 数据仓库处理流程 数据治理 数据平台整体架构 数据仓库建设的价值 为何要建数据仓库 数据仓库整体架构 数据仓库—分 阅读全文
posted @ 2019-08-17 19:03 ~handsome 阅读(245) 评论(0) 推荐(0) 编辑
2019年7月29日

大数据项目--准备

摘要: 客户流失分析(Customer churn analysis):大家都知道开发新客户比留住老客户的成本要高,大数据和Hadoop技术可以通过导致客户放弃的行为分析和识别模式来帮助金融公司来留住他们的客户。什么时候客户会最可能因为竞争对手而离开?什么原因?导致客户不满意的因素是什么?公司失败在哪里?这 阅读全文
posted @ 2019-07-29 15:48 ~handsome 阅读(303) 评论(0) 推荐(0) 编辑
2019年7月24日

ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】

摘要: 本系列文章主要索引如下: 一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】 二、ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】 三、ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】 本文主要阅读目录如下: 1、简介Kettle的K 阅读全文
posted @ 2019-07-24 10:35 ~handsome 阅读(369) 评论(0) 推荐(0) 编辑

ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】

摘要: 本系列文章主要索引如下: 一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】 二、ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】 三、ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】 本文主要阅读目录如下: 1、应用场景 2、DEM 阅读全文
posted @ 2019-07-24 10:34 ~handsome 阅读(493) 评论(0) 推荐(0) 编辑

ETL利器Kettle实战应用解析系列一【Kettle使用介绍】

摘要: 本系列文章主要索引如下: 一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】 二、ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】 三、ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】 本文主要阅读目录如下: 1、Kettle概念 2 阅读全文
posted @ 2019-07-24 10:33 ~handsome 阅读(797) 评论(0) 推荐(0) 编辑