第二次作业

1、了解对比Hadoop不同版本的特性,可以用图表的形式呈现

DKhadoop发行版:

DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。

 

Cloudera发行版: CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。
Hortonworks发行版: HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便,HDP包括一个现代化的,直观的用户界面的安装和配置工具

Apache hadoop

2.0 版本

1) hadoop 通用模块,支持其他 hadoop 模块的通用工具集;

(2) Hadoop 分布式文件系统,支持对应数据高吞吐量访问的分布式文件系统;

(3) 用于作业调度和集群资源管理的 Hadoop YANRN 框架;

(4) Hadoop MapReduce ,基于 YARN 的大数据并行处理系统 。

 

2、Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

Hadoop主要组件包含:

Hadoop:Java编写的软件框架,以支持数据密集型分布式应用

ZooKeeper:高可靠性分布式协调系统,解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等

MapReduce:针对大数据的灵活的并行数据处理框架

HDFS:Hadoop分布式文件系统,是个高度容错的系统,能检测和应对硬件故障。

Oozie:负责MapReduce作业调度

HBase:Key-value数据库

Hive:构建在MapRudece之上的数据仓库软件包,基于hadoop的数据仓库

Pig:Pig是架构在Hadoop之上的高级数据处理层。Pig Latin语言为编程人员提供了更直观的定制数据流的方法,通常用于离线分析。

 3、官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项

Hadoop的安装步骤:

1、安装hadoop的环境,必须在你的系统中有java的环境,甚至需要关闭防火墙操作。

2、配置java环境,和必须要设置SSH

3、 修改配置文件修改/usr/local/hadoop/etc/hadoop/文件夹下的core-site.xmlhdfs-site.xml 文件

4、输入相关命令

 

4、评估华为Hadoop发行版本的特点与可用性

华为在网络、虚拟化、PC等方面都有很强的硬件实力。华为的Hadoop版本基于自主研发的Hadoop HA平台,具有构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动进行Failover,无须人工干预,这也是对Hadoop功能不足的小修补,远不如MapR解决得彻底。

posted @ 2020-09-19 14:07  牛逼赛亚人  阅读(98)  评论(0编辑  收藏  举报