作业二:Hadoop演进与Hadoop生态

1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

Apache Hadoop Apache Hadoop是apache提供的官方版本,以yarn框架的出现为标志分为Hadoop第一代和Hadoop第二代。第二代Hadoop跟第一代相比有了明显的不同,包含了HDFS Federation和 YARN系统。

Cloudera hadoop:Cloudera 版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum 命令进行安装,更加省事。
Hortonworks Hortonworks提供的Hadoop发行版称为HDP,是全开源的系统。HDP除了包含常见的项目外还包含了Ambari,一款开源的安装和管理系统。一个元数据管理系统HCatlog,还包含HBase、Hive、Pig等一整套大数据解决方案技术,在管理工具和集群部署方面有其独特优势。

DKhaoop目前已知的国产发行版中唯一一个纯原生态的开发,集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。

FusionInsight Hadoop:华为Hadoop版本基于Apache Hadoop,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对Hadoop的小修补,远不如MapR解决的彻底。


2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

组件

作用、相互关系

HDFS

提供高可用的获取应用数据的分布式文件系统。

MapReduce

并行处理大数据集的编程模型。

HBase

可扩展的分布式数据库,支持大表的结构化数据存储。建立在HDFS之上的,面向列的NoSQL数据库,用于快速读或写大量数据。

Hive

建立在 Hadoop上的数据仓库基础构架。可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许不熟悉 MapReduce 的开发人员也能编写数据查询语句,然后这些语句被翻译为Hadoop上面的MapReduce任务。

Mahout

可扩展的机器学习和数据挖掘库。它提供的MapReduce包含很多实现方法,包括聚类算法、回归测试、统计建模。

Pig

支持并行计算的高级的数据流语言和执行框架。它是 MapReduce编程的复杂性的抽象。Pig平台包括运行环境和用于分析 Hadoop数据集的脚本语言(PigLatin)。其编译器将PigLatin翻译成 MapReduce程序序列。

Zookeeper

应用于分布式应用的高性能的协调服务。它是一个为分布式应用提供一致性服务的软件,提供的功能包括配置维护、域名服务、分布式同步、组服务等。

Amban

基于Web的工具,用来供应、管理和监测Hadoop集群,包括支持HDFS、MapReduceAHive、HCatalog、HBase、ZooKeeperAOozie、Pig和Sqoop。Ambari也提供了一个可视的仪表盘来查看集群的健康状态,并且能够使用户可视化地查看MapReduce、Pig和Hive应用来诊断其性能特征。

Sqoop

连接工具,用于在关系数据库、数据仓库和 Hadoop之间转移数据。Sqoop利用数据库技术描述架构,进行数据的导入导出;利用 MapReduce实现并行化运行和容错技术。

Flume

提供了分布式、可靠、高效的服务,用于收集、汇总大数据,并将单台计算机的大量数据转移到HDFS。它基于一个简单而灵活的架构,并提供了数据流的流。它利用简单的可扩展的数据模型,将企业中多台计算机上的数据转移到Hadoop。

 

3.官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。

安装参考:https://cloud.tencent.com/developer/article/1456434https://www.jianshu.com/p/96486ac810ed

注意事项参考:https://blog.csdn.net/cai_and_luo/article/details/106177163?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-7.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-7.channel_param

 

4.评估华为hadoop发行版本的特点与可用性。

华为Hadoop组件中的6大特色:

1、统一的SQL接口,可以支持各种组件进行统一查询,而不需要把数据从一个组件迁移到另一个组件。

2、SparkSQL,SparkSQL概念并非华为提出,但华为为社区做出了很多贡献,自己的产品能力更强,例如华为主导向Spark SQL贡献的CPU优化器,使得稳定性和高性能比社区的开源的SQL更强。

3、完全自研的SQL引擎EIK,华为的SQL引擎更接近数据库甚至超过数据库,用户能够得到跟数据库一样甚至超过数据库交互体验效果。

4、Apach,CarbonData是华为主导的一个社区开展项目,参与者有国内众多互联网公司和大型企业,也有国外IT企业,其特点是对上层的应用无感知,提升了数据分析、数据查询的性能。

5、多级租户管理功能,FusionInsight提供的多级租户管理功能来匹配企业的组织架构,也就是说,可以有这种公司级的租户和管理员,有部门级的综合管理员,还有子部门租户和管理员,在给用户设置权限、设置资源配合有更方便的对应。

6、对异构设备支持,既支持高低配的设备在同一个大集群里,又支持开发应用可以指定某些应用运行在不同的机器上。

 

 

posted @ 2020-09-18 18:37  少吃外卖  阅读(212)  评论(0编辑  收藏  举报