Hadoop学习1(初识hadoop)
Hadoop生态系统的特点
1)源代码开源
2)社区活跃,参与者多
3)涉及分布式存储和计算的各方面
4)已得到企业界的验证
Hadoop构成
1) 分布式文件系统HDFS(Hadoop Distributed File System)
------------提供了高可靠性、高扩展性和高吞吐率的数据存储服务
2)资源管理系统YARN(Yet Another Resource Negotiator)
-----------负责集群资源的统一管理和调度
3)分布式计算框架(MapReduce)
-----------具有易于编程、高容错性和高扩展性等优点
分布式文件系统HDFS
来源于Google的GFS论文
- 2003年10月发表
 - HDFS是GFS克隆版
 
HDFS特点
- 良好的扩展性(增加机器进行扩展)
 - 高容错性(存储了多份,数据有备份)
 - 适合PB即以上海量数据的存储
 
基本原理
- 将文件切分成等大的数据块,存储到多态机器上
 - 将数据切分、容错、负载均衡等功能透明化
 - 可将HDFS看成一个容量巨大、具有高容错性的磁盘
 
典型应用场景
- 海量数据的可靠性存储
 - 数据归档
 
资源管理系统YARN
什么是YARN
- Hadoop 2.0新增系统
 - 负责集群的资源管理和调度
 - 使得多种计算框架可以运行在一个集群中
 
YARN 的特点
- 良好的扩展性、高可用性
 - 对多种类型的应用程序进行统一管理和调度
 - 自带了多种多用户调度器,适合共享集群环境
 
分布式计算框架MapReduce
源自于Google的MapReduce论文
- 2004年12月发表
 - Hadoop MapReduce 是Google MapReduce 克隆版
 
MapReduce特点
- 良好的扩展性
 - 高容错性
 - 适合PB级以上海量数据的离线处理
 
其它
- 基于MR的数据仓库Hive
 - 数据分析工具Pig
 - 数据挖掘仓库Mahout
 - 分布式数据库HBase
 - 分布式协作服务Zookeeper
 - 数据同步工具Sqoop
 - 日志收集工具Flume
 
                    
                
                
            
        
浙公网安备 33010602011771号