大数据概述

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。

1.Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统的开源实现，它是Hadoop两大核心组成部分之一，提供了在廉价服务器集群中进行大规模分布式文件存储的能力。

2.MapReduce 是一种分布式并行编程模型，用于大规模数据集（大于1TB）的并行运算，它将复杂的、运行于大规模集群上的并行计算过程高度抽象到两个函数：Map和Reduce

3.HDFS具有很好的容错能力，并且兼容廉价的硬件设备，因此，可以以较低的成本利用现有机器实现大流量和大数据量的读写。

4.YARN 是负责集群资源调度管理的组件。YARN 的目标就是实现“一个集群多个框架”，即在一个集群上部署一个统一的资源调度管理框架YARN

5.Hive是一个基于Hadoop的数据仓库工具，可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。

6.Flume 是 Cloudera 公司开发的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统。

7.Sqoop是SQL-to-Hadoop的缩写，主要用来在Hadoop和关系数据库之间交换数据，可以改进数据的互操作性。

2.对比Hadoop与Spark的优缺点。

Hadoop的优点

1、Hadoop具有按位存储和处理数据能力的高可靠性。

2、Hadoop通过可用的计算机集群分配数据，完成存储和计算任务，这些集群可以方便地扩展到数以千计的节点中，具有高扩展性。

Hadoop的缺点

1、Hadoop不适用于低延迟数据访问。

2、Hadoop不能高效存储大量小文件。

3、Hadoop不支持多用户写入并修改文件。

Spark的优点

1、速度快

2、使用方便，支持多语言

3、丰富的操作算子

4、支持的场景多

5、生态完善、社区活跃

Spark的缺点

1、流式计算不如flink

2、资源消耗较高

3.如何实现Hadoop与Spark的统一部署？

Spark可运行于YARN之上，与Hadoop进行统一部署，即“Spark on YARN”，资源管理和调度依赖YARN，分布式存储则依赖HDFS。

posted @ 2022-02-26 23:40 fdmlqy 阅读(90) 评论(0) 收藏举报

刷新页面返回顶部