摘要: 1. Hive基本概念 1.1 Hive简介 1.1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.2 为什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapRe 阅读全文
posted @ 2017-12-01 17:56 java与大数据征程 阅读(6337) 评论(0) 推荐(0) 编辑
摘要: 3.1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 3.2 工作机制 将导入或导出命令 阅读全文
posted @ 2017-12-01 17:33 java与大数据征程 阅读(770) 评论(0) 推荐(0) 编辑
摘要: 2.1 概述 2.1.1为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 l 各任务单元之间存在时间先后及前后依赖关系 l 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 阅读全文
posted @ 2017-12-01 17:30 java与大数据征程 阅读(1480) 评论(0) 推荐(0) 编辑
摘要: 前言 在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 1. 日志采集框架Flume 1.1 Flume介绍 1.1.1 概 阅读全文
posted @ 2017-12-01 17:26 java与大数据征程 阅读(6186) 评论(0) 推荐(0) 编辑