大数据概述
1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。
1. HDFS(Hadoop 分布式文件系统)
Hadoop两大核心组成部分,也是可以进行兼容廉价的硬件设备
2.MapReduce
是一种分布式并行编程模型。可以进行海量数据集
3.YARN
Hadoop的资源管理器,负责集群资源调度管理的组件
4.HBase
支持超大规模数据存储,通过水平扩展的方式,利用廉价计算机集群处理数以万计的行列构成的数据表
5.Hive
基于Hadoop的数据仓库工具,可以对文件进行数据整理、查询和分析处理。
6.Flume
分布式的海量日志采集、聚合和传输系统。支持在日志系统中定制各类数据发送方,用于收集数据;提供对数据进行简单处理和写入数据接收方的能力。
7.Sqoop
用来在Hadoop和关系数据库之间交换数据,可以改进数据的互操作性。
3.如何实现Hadoop与Spark的统一部署?
Hadoop生态系统中的一些组件所实现的功能,目前还是无法由Spark取代的 。Spark则无法做到毫秒级响应。企业中已经有许多现有的应用,但是都是基于现有的Hadoop组件开发的,完全转移到Spark上需要一定的成本。由于Hadoop MapReduce、HBase、Storm和Spark等,都可以运行在资源管理框架YARN之上,因此,可以在YARN之上进行统一部署