摘要: 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。 首先我要讲讲hive的数据类型。 Hive支持两种数据类型,一类叫原子数据类型,一类叫复 阅读全文
posted @ 2018-04-13 21:02 谦如尘埃风过隙 阅读(682) 评论(0) 推荐(0) 编辑
摘要: 本篇文章是down的别人的文档,大家可以参考一下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进 阅读全文
posted @ 2018-04-13 16:06 谦如尘埃风过隙 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 来源地——https://blog.csdn.net/zjerryj/article/details/77152226 数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库,进行清洗、转换、聚合等操作。在现代网站技术栈中,MySQL 是最常见的数据库管理 阅读全文
posted @ 2018-04-13 13:55 谦如尘埃风过隙 阅读(1829) 评论(0) 推荐(0) 编辑
摘要: 概述 canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。 起源:早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的 阅读全文
posted @ 2018-04-13 11:29 谦如尘埃风过隙 阅读(41492) 评论(0) 推荐(5) 编辑
摘要: 阅读全文
posted @ 2018-04-13 09:54 谦如尘埃风过隙 阅读(548) 评论(0) 推荐(0) 编辑
摘要: 大数据平台粗略架构 数据仓库设计步骤 1、确定主题 主题与业务密切相关,所以设计数仓之前应当充分了解业务有哪些方面的需求,据此确定主题 2、确定量度 在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类。量度是要统计的指标,必须事先选 择恰当,基于不同的量度将直接产生不同的决策结果。 3、 阅读全文
posted @ 2018-04-13 09:09 谦如尘埃风过隙 阅读(1396) 评论(0) 推荐(0) 编辑