1.2 Hadoop快速入门
1、Hadoop简介
Hadoop是一个开源的分布式计算平台。
提供功能:利用服务器集群,根据用户定义的业务逻辑,对海量数据的存储(HDFS)和分析计算(MapReduce)
2、Hadoop核心组件
-
Common——基础组件
-
HDFS——分布式文件存储系统
-
MapReduce——分布式运算编程框架
-
基于JAVA语言,包含2个步骤,分别是map和reduce
-
map:对数据进行指定操作生成键值对的中间数据
-
reduce:对map的结果进行规约,得到最终结果
-
-
yarn——资源调度系统
- 负责资源(CPU、内存等)分配
Hadoop1.x与Hadoop2.x版本的区别:Hadoop2.x将MapReduce和yarn分离开来了。
3、Hadoop生态圈
-
flume:数据采集工具,用户采集数据,如:日志数据
-
HDFS:分布式文件存储系统,用于存储数据
-
MapReduce:分布式运算编程框架,用于数据的分析计算
-
sqoop:sql-to-hadoop,数据迁移工具,用于迁移数据,如:将数据迁移到mysql
-
Hive:数据仓库工具,用于数据分析,将结构化的数据映射为表,可以将sql语句转换成MapReduce的作业来运行
-
pig:和Hive类似,用于数据分析
-
Hbase:分布式、面向列的数据
-
zookeeper:分布式服务框架,统一配置管理Hadoop生态圈的各种工具。
4、Hadoop特点
-
高可靠性
-
数据存储有多个备份
-
自动重新部署数据处理请求失败的任务
-
-
高扩展性
- 集群易于扩展
-
高效性
- 节点间动态平衡
-
高容错性
-
数据有备份
-
自动重新运行失败的任务
-
-
低成本
- Hadoop是开源的
-
可构建在廉价的机器上
-
Hadoop基本框架用java语言编写
浙公网安备 33010602011771号