1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。
随着这几年大数据浪潮的兴起,hadoop的各种版本也快速在国内流传和使用,国内像华为、大快搜索都有推出自己的hadoop发行版。当前主要的hadoop版本有以下几种:
|
版本 |
特点 |
|
Apache hadoop 2.0 版本 |
(1) hadoop 通用模块,支持其他 hadoop 模块的通用工具集; (2) Hadoop 分布式文件系统,支持对应数据高吞吐量访问的分布式文件系统; (3) 用于作业调度和集群资源管理的 Hadoop YANRN 框架; (4) Hadoop MapReduce ,基于 YARN 的大数据并行处理系统 。 |
|
Cloudera hadoop |
Cloudera 版本层次更加清晰,且它提供了适用于各种操作系统的 Hadoop 安装包,可直接使用 apt-get或者 yum 命令进行安装,更加省事。 |
|
Hortonworks |
Hortonworks 的主打产品是 Hortonworks Data Platform (HDP) ,也同样是 100% 开源的产品, HDP 除了常见的项目外还包含了 Ambari ,一款开源的安装和管理系统。 HCatalog ,一个元数据管理系统, HCatalog 现已集成到 Facebook 开源的 Hive 中。 Hortonworks 的Stinger 开创性地极大地优化了 Hive 项目。 Hortonworks 为入门提供了一个非常好的,易于使用的沙盒。 Hortonworks 开发了很多增强特性并提交至核心主干,这使得 Apache Hadoop 能够在包括 Windows Server 和 Windows Azure 在内的 Microsoft Windows 平台上本地运行。 |
|
DKhaoop |
大快搜索推出的 DKhaoop , 是目前已知的国产发行版中唯一一个纯原生态的开发, 集成了整个 HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。 |
2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。
Hadoop框架如下图所示:
|
组件名 |
作用 |
|
HDFS |
HDFS是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 |
|
Mapreduce (分布式计算框架) |
mapreduce是一种计算模型,用于处理大数据量的计算。 |
|
hive |
基于hadoop的数据仓库 |
|
hbase |
hbase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。 |
|
Zookeeper (分布式协作服务) |
解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。 |
|
sqoop |
sqoop是sql-to-hadoop的缩写,主要用于传统数据库和hadoop之间传输数据。 |
|
pig |
定义了一种数据流语言-pig latin,将脚本转换为mapreduce任务在hadoop上执行。 通常用于离线分析。 |
|
mahout |
mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建只能应用程序。 |
|
flume |
cloudera开源的日志收集系统,具有分布式,高可靠,高容错,易于定制和扩展的特点。 |
3.官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。
hadoop的安装步骤:
1.创建Hadoop用户
2.安装java环境
3.设置SSH
4.修改配置文件修改/usr/local/hadoop/etc/hadoop/文件夹下的core-site.xml和hdfs-site.xml 文件
(详见https://www.jianshu.com/p/d2f8c7153239)
4.评估华为hadoop发行版本的特点与可用性。
华为hadoop发行版:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底。
浙公网安备 33010602011771号