随笔分类 -  Hive

摘要:## 数据仓库分层 ### 1、介绍 数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新。 两者并无冲突,相反,而是一种更好的结合。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。 ### 2、为什么要分层 分层的主要原因是在管理数据的时候,能对... 阅读全文
posted @ 2018-09-16 10:52 大道至简(老徐) 阅读(13711) 评论(0) 推荐(0)
摘要:## Hive基础 ### 1、介绍 Hive是OLAP(online analyze process,在线分析处理)。通常称为数据仓库,简称数仓。内置很多分析函数,可进行海量数据的在线分析处理。hive构建在hadoop之上,使用hdfs作为进行存储,计算过程采用的是Mapreduce完成,本质上hive是对hadoop的mr的封装,通过原始的mr方式进行数据处理与分析,往往效率较低,而且具... 阅读全文
posted @ 2018-09-16 10:50 大道至简(老徐) 阅读(716) 评论(0) 推荐(1)
摘要:## HUE安装与使用 ### 1、介绍 HUE是一个开源的Apache Hadoop UI系统,早期由Cloudera开发,后来贡献给开源社区。它是基于Python Web框架Django实现的。通过使用Hue我们可以通过浏览器方式操纵Hadoop集群。例如put、get、执行MapReduce Job等等。 ### 2、安装 #### 2.1 安装hue依赖的第三方包 ```shel... 阅读全文
posted @ 2018-09-04 12:11 大道至简(老徐) 阅读(62050) 评论(2) 推荐(4)
摘要:## Hive建模### 1、介绍Hive作为数据仓库,同关系型数据库开发过程类似,都需要先进行建模,所谓建模,就是对表之间指定关系方式。建模在hive中大致分为星型、雪花型和星座型。要对建模深入理解,首先需要对hive数仓中的集中表概念进行界定。hive中的表从形态上分内部表、外部表、桶表、分区表。在数据逻辑上划分为维度表和事实表。维度表等价于我们常说的字典表。事实表就是字典表之外的数据表。##... 阅读全文
posted @ 2018-08-27 20:34 大道至简(老徐) 阅读(4252) 评论(0) 推荐(0)