摘要: Linux安装Gradle Gradle 是以 Groovy 语言为基础,面向Java应用为主。基于DSL(领域特定语言)语法的自动化构建工具。在github上,gradle项目很多,有的是gradel跟maven构建一块儿使用,可以看出,gradle有一种逐渐替代maven的架势。 下面就描述一下 阅读全文
posted @ 2018-04-24 20:28 谦如尘埃风过隙 阅读(653) 评论(0) 推荐(0) 编辑
摘要: 第一章 导论 运维过hadoop集群的人都应该清楚,hadoop生态从安装、配置到后期运维是一个非常艰辛的过程,一般来说安装hadoop可能就需要几天时间,运维一个小型集群同样需要几个人。ambari和cloudera Manager这两个系统,目的就是简化hadoop生态集群的安装、配置,同时提高 阅读全文
posted @ 2018-04-24 19:07 谦如尘埃风过隙 阅读(2139) 评论(1) 推荐(0) 编辑
摘要: CDP组件部署文档 0000—安装包的下载 1— 操作系统centos7 (版本7.2.x) (1)下载地址 https://www.centos.org/download/ (2)进入之后按需选择DVD ISO (3)国内下载链接如下(稳定最新版) 2—JDK (版本1.8.144) 下载地址 h 阅读全文
posted @ 2018-04-24 19:05 谦如尘埃风过隙 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。 首先我要讲讲hive的数据类型。 Hive支持两种数据类型,一类叫原子数据类型,一类叫复 阅读全文
posted @ 2018-04-13 21:02 谦如尘埃风过隙 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 本篇文章是down的别人的文档,大家可以参考一下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进 阅读全文
posted @ 2018-04-13 16:06 谦如尘埃风过隙 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 来源地——https://blog.csdn.net/zjerryj/article/details/77152226 数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库,进行清洗、转换、聚合等操作。在现代网站技术栈中,MySQL 是最常见的数据库管理 阅读全文
posted @ 2018-04-13 13:55 谦如尘埃风过隙 阅读(1827) 评论(0) 推荐(0) 编辑
摘要: 概述 canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。 起源:早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的 阅读全文
posted @ 2018-04-13 11:29 谦如尘埃风过隙 阅读(41448) 评论(0) 推荐(5) 编辑
摘要: 阅读全文
posted @ 2018-04-13 09:54 谦如尘埃风过隙 阅读(547) 评论(0) 推荐(0) 编辑
摘要: 大数据平台粗略架构 数据仓库设计步骤 1、确定主题 主题与业务密切相关,所以设计数仓之前应当充分了解业务有哪些方面的需求,据此确定主题 2、确定量度 在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类。量度是要统计的指标,必须事先选 择恰当,基于不同的量度将直接产生不同的决策结果。 3、 阅读全文
posted @ 2018-04-13 09:09 谦如尘埃风过隙 阅读(1396) 评论(0) 推荐(0) 编辑
摘要: 前言 数据仓库建模包含了几种数据建模技术,除了之前在数据库系列中介绍过的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。 本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度建模数据仓库,以及独立数据集市。 维度建模 阅读全文
posted @ 2018-04-12 10:49 谦如尘埃风过隙 阅读(6733) 评论(0) 推荐(1) 编辑