作业二：Hadoop演进与Hadoop生态

1.了解对比Hadoop不同版本的特性，可以用图表的形式呈现。

Apache Hadoop： Apache Hadoop是apache提供的官方版本，以yarn框架的出现为标志分为Hadoop第一代和Hadoop第二代。第二代Hadoop跟第一代相比有了明显的不同，包含了HDFS Federation和 YARN系统。

Cloudera hadoop：Cloudera 版本层次更加清晰，且它提供了适用于各种操作系统的Hadoop安装包，可直接使用apt-get或者yum 命令进行安装，更加省事。
Hortonworks： Hortonworks提供的Hadoop发行版称为HDP,是全开源的系统。HDP除了包含常见的项目外还包含了Ambari，一款开源的安装和管理系统。一个元数据管理系统HCatlog,还包含HBase、Hive、Pig等一整套大数据解决方案技术，在管理工具和集群部署方面有其独特优势。

DKhaoop：目前已知的国产发行版中唯一一个纯原生态的开发，集成了整个HADOOP生态系统的全部组件，并深度优化，重新编译为一个完整的更高性能的大数据通用计算平台，实现了各部件的有机协调。因此DKH相比开源的大数据平台，在计算性能上有了高达5倍（最大）的性能提升。

FusionInsight Hadoop：华为Hadoop版本基于Apache Hadoop，构建NameNode、JobTracker、HiveServer的HA功能，进程故障后系统自动Failover，无需人工干预，这个也是对Hadoop的小修补，远不如MapR解决的彻底。

2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系，以图例加文字描述呈现。

组件	作用、相互关系
HDFS	提供高可用的获取应用数据的分布式文件系统。
MapReduce	并行处理大数据集的编程模型。
HBase	可扩展的分布式数据库，支持大表的结构化数据存储。建立在HDFS之上的，面向列的NoSQL数据库，用于快速读或写大量数据。
Hive	建立在 Hadoop上的数据仓库基础构架。可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HQL，它允许不熟悉 MapReduce 的开发人员也能编写数据查询语句，然后这些语句被翻译为Hadoop上面的MapReduce任务。
Mahout	可扩展的机器学习和数据挖掘库。它提供的MapReduce包含很多实现方法，包括聚类算法、回归测试、统计建模。
Pig	支持并行计算的高级的数据流语言和执行框架。它是 MapReduce编程的复杂性的抽象。Pig平台包括运行环境和用于分析 Hadoop数据集的脚本语言（PigLatin）。其编译器将PigLatin翻译成 MapReduce程序序列。
Zookeeper	应用于分布式应用的高性能的协调服务。它是一个为分布式应用提供一致性服务的软件，提供的功能包括配置维护、域名服务、分布式同步、组服务等。
Amban	基于Web的工具，用来供应、管理和监测Hadoop集群，包括支持HDFS、MapReduceAHive、HCatalog、HBase、ZooKeeperAOozie、Pig和Sqoop。Ambari也提供了一个可视的仪表盘来查看集群的健康状态，并且能够使用户可视化地查看MapReduce、Pig和Hive应用来诊断其性能特征。
Sqoop	连接工具，用于在关系数据库、数据仓库和 Hadoop之间转移数据。Sqoop利用数据库技术描述架构，进行数据的导入导出；利用 MapReduce实现并行化运行和容错技术。
Flume	提供了分布式、可靠、高效的服务，用于收集、汇总大数据，并将单台计算机的大量数据转移到HDFS。它基于一个简单而灵活的架构，并提供了数据流的流。它利用简单的可扩展的数据模型，将企业中多台计算机上的数据转移到Hadoop。

3.官网学习Hadoop的安装与使用，用文档的方式列出步骤与注意事项。

安装参考：https://cloud.tencent.com/developer/article/1456434、https://www.jianshu.com/p/96486ac810ed

注意事项参考：https://blog.csdn.net/cai_and_luo/article/details/106177163?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-7.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-7.channel_param

4.评估华为hadoop发行版本的特点与可用性。

华为Hadoop组件中的6大特色：

1、统一的SQL接口，可以支持各种组件进行统一查询，而不需要把数据从一个组件迁移到另一个组件。

2、SparkSQL，SparkSQL概念并非华为提出，但华为为社区做出了很多贡献，自己的产品能力更强，例如华为主导向Spark SQL贡献的CPU优化器，使得稳定性和高性能比社区的开源的SQL更强。

3、完全自研的SQL引擎EIK，华为的SQL引擎更接近数据库甚至超过数据库，用户能够得到跟数据库一样甚至超过数据库交互体验效果。

4、Apach，CarbonData是华为主导的一个社区开展项目，参与者有国内众多互联网公司和大型企业，也有国外IT企业，其特点是对上层的应用无感知，提升了数据分析、数据查询的性能。

5、多级租户管理功能，FusionInsight提供的多级租户管理功能来匹配企业的组织架构，也就是说，可以有这种公司级的租户和管理员，有部门级的综合管理员，还有子部门租户和管理员，在给用户设置权限、设置资源配合有更方便的对应。

6、对异构设备支持，既支持高低配的设备在同一个大集群里，又支持开发应用可以指定某些应用运行在不同的机器上。

posted @ 2020-09-18 18:37 少吃外卖阅读(267) 评论(0) 收藏举报

刷新页面返回顶部

作业二：Hadoop演进与Hadoop生态

公告