大数据概述

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。

1. HDFS(Hadoop 分布式文件系统)

Hadoop两大核心组成部分，也是可以进行兼容廉价的硬件设备

2.MapReduce

是一种分布式并行编程模型。可以进行海量数据集

3.YARN

Hadoop的资源管理器，负责集群资源调度管理的组件

4.HBase

支持超大规模数据存储，通过水平扩展的方式，利用廉价计算机集群处理数以万计的行列构成的数据表

5.Hive

基于Hadoop的数据仓库工具，可以对文件进行数据整理、查询和分析处理。

6.Flume

分布式的海量日志采集、聚合和传输系统。支持在日志系统中定制各类数据发送方，用于收集数据；提供对数据进行简单处理和写入数据接收方的能力。

7.Sqoop

用来在Hadoop和关系数据库之间交换数据，可以改进数据的互操作性。

3.如何实现Hadoop与Spark的统一部署？

Hadoop生态系统中的一些组件所实现的功能，目前还是无法由Spark取代的。Spark则无法做到毫秒级响应。企业中已经有许多现有的应用，但是都是基于现有的Hadoop组件开发的，完全转移到Spark上需要一定的成本。由于Hadoop MapReduce、HBase、Storm和Spark等，都可以运行在资源管理框架YARN之上，因此，可以在YARN之上进行统一部署

posted @ 2022-02-23 10:46 潮汕美男阅读(53) 评论(0) 收藏举报

刷新页面返回顶部

大数据概述

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。

3.如何实现Hadoop与Spark的统一部署？

公告