大数据概述

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。

 

 

 1. HDFS(Hadoop 分布式文件系统) 

Hadoop两大核心组成部分,也是可以进行兼容廉价的硬件设备

2.MapReduce

是一种分布式并行编程模型。可以进行海量数据集

3.YARN

Hadoop的资源管理器,负责集群资源调度管理的组件

4.HBase

支持超大规模数据存储,通过水平扩展的方式,利用廉价计算机集群处理数以万计的行列构成的数据表

5.Hive

基于Hadoop的数据仓库工具,可以对文件进行数据整理、查询和分析处理。

6.Flume

分布式的海量日志采集、聚合和传输系统。支持在日志系统中定制各类数据发送方,用于收集数据;提供对数据进行简单处理和写入数据接收方的能力。

7.Sqoop

用来在Hadoop和关系数据库之间交换数据,可以改进数据的互操作性。

 

 

 

 3.如何实现Hadoop与Spark的统一部署? 

Hadoop生态系统中的一些组件所实现的功能,目前还是无法由Spark取代的 。Spark则无法做到毫秒级响应。企业中已经有许多现有的应用,但是都是基于现有的Hadoop组件开发的,完全转移到Spark上需要一定的成本。由于Hadoop MapReduce、HBase、Storm和Spark等,都可以运行在资源管理框架YARN之上,因此,可以在YARN之上进行统一部署

 

posted @ 2022-02-23 10:46  潮汕美男  阅读(46)  评论(0)    收藏  举报