大数据作业二

问题一:了解对比Hadoop不同版本的特性,可以用图表的形式呈现

答:

发行版本

功能特点

 

        DKhadoop发行版

DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。

cloudera发行版

Cloudera发行版:CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。

 

hortonworks发行版

€Hortonworks发行版:Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,其版本特点:HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便,HDP包括一个现代化的,直观的用户界面的安装和配置工具

MAPR发行版

MAPR发行版:mapR有免费和商业两个版本,免费版本在功能上有所减少

华为hadoop发行版

华为hadoop发行版:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底

 

 

 问题二:Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现

答:

            Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统;

 

 

Hadoop项目结构
组件 功能
HDFS 分布式文件系统
MapReduce 分布式并行编程模型
YARN 资源管理和调度器
Tez 运行在YARN之上的下一代Hadoop查询处理框架
Hive Hadoop上的数据仓库
HBase Hadoop上的非关系型的分布式数据库
Pig 一个基于Hadoop的大规模数据分析平台,提供类SQL的查询语言PigLatin
Sqoop 用于在Hadoop与传统数据库之间进行数据传递
Oozie

Hadoop上的工作流管理系统

Zookeeper 提供分布式协调一致性服务
Storm 流计算框架
Flume 一个高可用的,高可靠性的,分布式的海量日志采集,聚合和传输的系统
Ambari Hadoop快速部署工具,支持Apache Hadoop集群的供应,管理和监控
Kafka 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据类似于Hadoop MapReduce的通用并行框架

 

 

 

问题三:官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。

答:

Hadoop的安装步骤:

1、安装hadoop的环境,必须在你的系统中有java的环境,甚至需要关闭防火墙操作。

2、配置java环境,和必须要设置SSH

3、 修改配置文件修改/usr/local/hadoop/etc/hadoop/文件夹下的core-site.xmlhdfs-site.xml 文件

4、输入相关命令

 

问题四:评估华为Hadoop发行版本的特点与可用性。

 答:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底。

 

posted @ 2020-09-19 17:03  吴大叔  阅读(111)  评论(0编辑  收藏  举报