1.大数据概述

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。

答：

-HDFS
HDFS（Hadoop分布式文件系统）源自于Google的GFS论文，发表于2003年10月，HDFS是GFS的实现版。HDFS是Hadoop体系中数据存储管理的基础，它是一个高度容错的系统，能检测和应对硬件故障，在低成本的通用硬件上运行。HDFS简化了文件的一次性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适用带有数据集的应用程序。HDFS提供一次写入多次读取的机制，数据以块的形式，同时分布存储在不同的物理机器上。
HDFS默认的最基本的存储单位是64MB的数据块，和普通文件系统一样，HDFS中的文件被分成64MB一块的数据块存储。它的开发是基于流数据模式访问和处理超大文件的需求。

-MapReduce

Mapduce（分布式计算框架）源自于Google的MapReduce论文，发表于2004年12月，Hadoop MapReduce是Google Reduce 克隆版。MapReduce是一种分布式计算模型，用以进行海量数据的计算。它屏蔽了分布式计算框架细节，将计算抽象成Map 和Reduce两部分，其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。

-HBase
Hbase（分布式列存数据库）源自Google的BigTable论文，发表于2006年11月，HBase是Google Table的实现。HBase是一个建立在HDFS之上，面向结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。HBase采用了BigTable的数据模型，即增强的稀疏排序映射表（Key/Value）,其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模

-YARN
YARN（分布式资源管理器）是下一代MapReduce，即MRv2，是在第一代MapReduce基础上演变而来的，主要是为了解决原始Hadoop扩展性差，不支持多计算框架而提出的。YARN是下一代Hadoop计算平台，是一个通用的运行时框架，用户可以编写自己的极端框架，在该运行环境中运行。

-Hive
Hive是一个基于Hadoop的数据仓库工具，可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。

Hive的学习门槛比较低，因为它提供了类似于关系数据库SQL语言的查询语言——HiveQL，可以通过HiveQL语句快速实现简单的MapReduce统计，Hive自身可以自动将HiveQL语句快速转换成MapReduce任务进行运行，而不必开发专门的MapReduce应用程序，因而十分适合数据仓库的统计分析。

-Flume

Flume 是 Cloudera 公司开发的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统。

Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接收方的能力。

-Sqoop
Sqoop是SQL-to-Hadoop的缩写，主要用来在Hadoop和关系数据库之间交换数据，可以改进数据的互操作性。

通过Sqoop，可以方便地将数据从MySQL、Oracle、PostgreSQL等关系数据库中导入Hadoop（比如导入到HDFS、HBase或Hive中），或者将数据从Hadoop导出到关系数据库，使得传统关系数据库和Hadoop之间的数据迁移变得非常方便。

2.对比Hadoop与Spark的优缺点。

答：

Hadoop和Spark均是大数据框架，都提供了一些执行常见大数据任务的工具。但确切地说，它们所执行的任务并不相同，彼此也并不排斥。虽然在特定的情况下，Spark据称要比Hadoop快100倍，但它本身没有一个分布式存储系统。而分布式存储是如今许多大数据项目的基础。它可以将PB级的数据集存储在几乎无限数量的普通计算机的硬盘上，并提供了良好的可扩展性，只需要随着数据集的增大增加硬盘。因此，Spark需要一个第三方的分布式存储。也正是因为这个原因，许多大数据项目都将Spark安装在Hadoop之上。这样，Spark的高级分析应用程序就可以使用存储在HDFS中的数据了。
与Hadoop相比，Spark真正的优势在于速度。Spark的大部分操作都是在内存中，而Hadoop的MapReduce系统会在每次操作之后将所有数据写回到物理存储介质上。这是为了确保在出现问题时能够完全恢复，但Spark的弹性分布式数据存储也能实现这一点。

另外，在高级数据处理（如实时流处理和机器学习）方面，Spark的功能要胜过Hadoop。

Spark平台的速度和流数据处理能力也非常适合机器学习算法。这类算法可以自我学习和改进，直到找到问题的理想解决方案。这种技术是最先进制造系统（如预测零件何时损坏）和无人驾驶汽车的核心。Spark有自己的机器学习库MLib，而Hadoop系统则需要借助第三方机器学习库，如Apache Mahout。

3.如何实现Hadoop与Spark的统一部署？

答：

一方面，由于Hadoop生态系统中的一些组件所实现的功能，目前还是无法由Spark取代的，比如，Storm可以实现毫秒级响应的流计算，但是，Spark则无法做到毫秒级响应。另一方面，企业中已经有许多现有的应用，都是基于现有的Hadoop组件开发的，完全转移到Spark上需要一定的成本。因此，在许多企业实际应用中，Hadoop和Spark的统一部署是一种比较现实合理的选择。

由于Hadoop MapReduce、HBase、Storm和Spark等，都可以运行在资源管理框架YARN之上，因此，可以在YARN之上进行统一部署（如图9-16所示）。这些不同的计算框架统一运行在YARN中，可以带来如下好处：

 计算资源按需伸缩；

 不用负载应用混搭，集群利用率高；

 共享底层存储，避免数据跨集群迁移。

posted @ 2022-02-22 10:02 牛冠府阅读(37) 评论(0) 收藏举报

刷新页面返回顶部

牛冠府

1.大数据概述

公告