第二次作业
1、了解对比Hadoop不同版本的特性,可以用图表的形式呈现
DKhadoop发行版: |
DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。
|
Cloudera发行版: | CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。 |
Hortonworks发行版: | HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便,HDP包括一个现代化的,直观的用户界面的安装和配置工具 |
Apache hadoop 2.0 版本 |
1) hadoop 通用模块,支持其他 hadoop 模块的通用工具集; (2) Hadoop 分布式文件系统,支持对应数据高吞吐量访问的分布式文件系统; (3) 用于作业调度和集群资源管理的 Hadoop YANRN 框架; (4) Hadoop MapReduce ,基于 YARN 的大数据并行处理系统 。 |
2、Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。
Hadoop主要组件包含:
Hadoop:Java编写的软件框架,以支持数据密集型分布式应用
ZooKeeper:高可靠性分布式协调系统,解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等
MapReduce:针对大数据的灵活的并行数据处理框架
HDFS:Hadoop分布式文件系统,是个高度容错的系统,能检测和应对硬件故障。
Oozie:负责MapReduce作业调度
HBase:Key-value数据库
Hive:构建在MapRudece之上的数据仓库软件包,基于hadoop的数据仓库
Pig:Pig是架构在Hadoop之上的高级数据处理层。Pig Latin语言为编程人员提供了更直观的定制数据流的方法,通常用于离线分析。
3、官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项
Hadoop的安装步骤:
1、安装hadoop的环境,必须在你的系统中有java的环境,甚至需要关闭防火墙操作。
2、配置java环境,和必须要设置SSH
3、 修改配置文件修改/usr/local/hadoop/etc/hadoop/
文件夹下的core-site.xml
和hdfs-site.xml
文件
4、输入相关命令
4、评估华为Hadoop发行版本的特点与可用性
华为在网络、虚拟化、PC等方面都有很强的硬件实力。华为的Hadoop版本基于自主研发的Hadoop HA平台,具有构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动进行Failover,无须人工干预,这也是对Hadoop功能不足的小修补,远不如MapR解决得彻底。