第二次作业

1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

      Hadoop有三个版本,Hadoop1.0包括0.20.x、0.21.x、0.22.x三大版本,其中0.21.x和0.22.x增加了HDFS HA 等重要的新特性。第二代包含了0.23.x和2.x两大版本,是一套全新的架构,均包含HDFS Fedration 和YARN两个系统。最低要求的Java版本从Java 7增加到Java 8,现在已针对Java 8的运行时版本编译了所有Hadoop JAR,支持HDFS中的擦除编码,删除编码文档中提供了更多详细信息。


2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

       Hadoop生态的组成:除了核心HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。

       HDFS:分布式文件系统,具有处理超大数据、流式处理、可以运行在廉价商用服务器上。

       HBase:提供高可靠性、高性能、可伸缩、实时实写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。具有强大的非结构化数据存储能力,具有良好的横性扩展能力。

       MapReduce:用于大规模数据集的并行运算,将复杂的、运行于大规模集群上的并行计算过程高度抽象到map和reduce两个函数上,把输入的数据集切分成若干独立的数据块。

      Hive:进行数据整理、特殊查询和分析存储。

      Pig:半结构化数据集。

      Mahout:帮开发人员更方便快捷创建智能应用程序。

     

3.官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。

     打开Hadoop的官方网站,点击Download Hadoop

     或点击“Getting Started”节中的Download Hadoop from the release page.

    点击Download

    点击Download a release now!

    这里会显示一些下载的镜像站点,点击其中一个

   选择“Stable”,即稳定版,点击“hadoop-2.5.1.tar.gz”开始下载文件

 

4.评估华为hadoop发行版本的特点与可用性。

   华为FusionInsight HD发行版紧随开源社区的最新技术,快速集成最新组件,并在可靠性、安全性、管理性等方面做企业级的增强,持续改进,持续保持技术领先。FusionInsight HD基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。支持安全协议Kerberos,FusionInsight HD使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证。Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储。加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。    

 

posted @ 2020-09-19 21:37  Hildarling  阅读(123)  评论(0)    收藏  举报