Hadoop演进与Hadoop生态

一、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

 

 

 

 

 

二、Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

Hadoop的架构:

 

在其核心,Hadoop主要有两个层次,即:

  • 加工/计算层(MapReduce),以及
  • 存储层(Hadoop分布式文件系统)。

 

 

Apache Hadoop 由两个子项目组成

Hadoop MapReduce : MapReduce 是一种计算模型及软件架构,编写在Hadoop上运行的应用程序。这些MapReduce程序能够对大型集群计算节点并行处理大量的数据。

HDFS (Hadoop Distributed File System): HDFS 处理 Hadoop 应用程序的存储部分。 MapReduce应用使用来自HDFS的数据。 HDFS创建数据块的多个副本,并集群分发它们到计算节点。这种分配使得应用可靠和极其迅速的计算。

虽然 Hadoop 是因为 MapReduce 和分布式文件系统 - HDFS 而最出名的, 该术语也是在分布式计算和大规模数据处理的框架下的相关项目。 Apache Hadoop 的其他相关的项目包括有:Hive, HBase, Mahout, Sqoop , Flume 和 ZooKeeper。

除了上面提到的两个核心组件,Hadoop的框架还包括以下两个模块:

Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具。

Hadoop YARN :这是作业调度和集群资源管理的框架。

 

 三、官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。

下载链接:http://www.apache.org/dyn/closer.cgi/hadoop/common/

安装步骤:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#Download

先决条件:

支持平台

支持GNU / Linux作为开发和生产平台。Hadoop在具有2000个节点的GNU / Linux集群上得到了证明。

Windows也是受支持的平台,但是以下步骤仅适用于Linux。要在Windows上设置Hadoop。

必备软件

Linux所需的软件包括:

  1. 必须安装Java™。HadoopJavaVersions中描述了推荐的Java版本。
  2. 如果要使用可选的启动和停止脚本,则必须安装ssh并且必须运行sshd才能使用管理远程Hadoop守护程序的Hadoop脚本。另外,建议也安装pdsh以便更好地进行ssh资源管理。

前期准备好之后,详细安装步骤:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#Download

四、评估华为hadoop发行版本的特点与可用性。

华为FusionInsight HD发行版紧随开源社区的最新技术,快速集成最新组件,并在可靠性、安全性、管理性等方面做企业级的增强,持续改进,持续保持技术领先。FusionInsight HD基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。支持安全协议Kerberos,FusionInsight HD使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证。Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储。加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。所有管理节点组件均实现HA(High Availability)业界第一个实现所有组件HA的产品,确保数据的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理节点均实现HA。

 

 

 

posted on 2020-09-19 18:56  靓号~亮皓  阅读(135)  评论(0编辑  收藏  举报

导航