hadoop介绍

hadoop允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。

hadoop核心组件：

1、HDFS（分布式文件存储系统）：解决海量数据存储。

2、YARN（集群资源管理和任务调度框架）：解决资源任务调度。

3、MapReduce（分布式计算框架）：解决海量数据计算。

提示：hadoop集群是由两个组件构成的，分别是HDFS和YARN，它们物理上是在一起的，逻辑上分离。

hadoop集群 = HDFS集群 + YARN集群

hadoop现状：

1、HDFS作为分布式文件存储系统，处在生态圈底层与核心地位。

2、YARN作为分布式通用的集群资源管理系统和任务调度平台，支撑各种计算引擎运行，保证了hadoop地位。

3、MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模型所产生的弊端，导致企业一线几乎不再直接使用

MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据。

注意：MapReduce是计算框架，代码层面的组件，没有集群之说！

hadoop优点：

扩容能力：在可用的计算机集群间分配数据并完成计算任务的，这些集群可方便灵活的方式扩展到数以千个的节点。

成本低：可以通过部署普通廉价的机器组成集群处理大数据，以至于成本很低，看重的是集群整体能力。

效率高：通过并发数据，hadoop可以在节点之间动态并行的移动数据，使得速度非常快。

可靠性：能自动维护数据的多份复制，并且在任务失败后能自动的重新部署计算任务，所以它的按位储存和处理数据能力值得人们信赖。

posted @ 2022-03-17 10:06 小王同学学编程阅读(156) 评论(0) 收藏举报

刷新页面返回顶部

小王同学学编程