第二次作业

一、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

对比版选择:DKhadoop发行版、cloudera发行版、hortonworks发行版。

 

DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。

 

 

 

cloudera发行版:CDHClouderahadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强

 

 

Hortonworks发行版:Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,其版本特点:HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便,HDP包括一个现代化的,直观的用户界面的安装和配置工具。

 

 

二、Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

组件之间的关系图:

 

Hadoop每个组件的作用: HDFShadoop分布式文件系统);mapreduce(分布式计算框架);hive(基于hadoop的数据仓库);hbase(分布式列存数据库);zookeeper(分布式协作服务);sqoop(数据同步工具);pig(基于hadoop的数据流系统);mahout(数据挖掘算法库);flume(日志收集工具)

 

三、官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。

安装步骤:首先需要Linux作为安装平台。

第一步,下载HadoopJavaVersions所描述的java版本;

第二步,安装软件,在Ubuntu Linux

$ sudo apt-get install ssh

  $ sudo apt-get install pdsh

第三步,下载需要安装的Hadoop发行版本,最好在官网下载稳定版本,

第四步,准备启动Hadoop集群:

解压缩下载的Hadoop发行版。在发行版中,编辑文件etc / hadoop / hadoop-env.sh以定义一些参数,如下所示:

  #设置为Java安装的根目录

 export JAVA_HOME = / usr / java / latest

尝试以下命令:

  $ bin / hadoop

这将显示hadoop脚本的用法文档。

现在,您可以以三种支持的模式之一启动Hadoop集群:

本地独立模式

伪分布式模式

全分布式模式

第五步,独立运行

默认情况下,Hadoop被配置为在非分布式模式下作为单个Java进程运行。这对于调试很有用。

下面的示例复制解压缩的conf目录以用作输入,然后查找并显示给定正则表达式的每个匹配项。输出被写入给定的输出目录。

 $ mkdir input

  $ cp etc/hadoop/*.xml input

  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'

  $ cat output/*

第六步,伪分式操作

组态:使用以下内容:

etc/hadoop/core-site.xml:

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

</configuration>

设置无密码SSH

现在检查您是否可以在不使用密码的情况下SSH到本地主机:

  $ ssh localhost

 

如果没有密码就无法SSH到本地主机,请执行以下命令:

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

  $ chmod 0600 ~/.ssh/authorized_keys

第七步,全分布式运行。

 

四、评估华为hadoop发行版本的特点与可用性。

特点:快速地整合和管理不同类型的大容量数据

对原生形式的信息提供高级分析

可视化所有的可用数据,供特殊分析使用

为构建新的分析应用程序提供开发环境

工作负荷的优化和调度

可用性:快速集成最新组件,并在可靠性、安全性、管理性等方面做企业级的增强,持续改进,持续保持技术领先。

安全:架构安全,认证安全,文件系统层加密。

可靠:所有管理节点组件均实现HA,集群异地灾备,数据恢复备份。

易用:统一运维管理,易集成,易开发。

 

 

posted @ 2020-09-18 10:49  B2026义父  阅读(127)  评论(0)    收藏  举报