hadoop安装使用

hadoop相关介绍

1.什么是hadoop?

Hadoop是一个开源的分布式计算框架,它可以让我们在大规模集群中存储和处理海量数据。Hadoop基于Google的MapReduce和Google文件系统(GFS)的思想而设计。它的目标是能够在成百上千台普通计算机上并行处理大数据,提供高可靠性和高扩展性。

2.为什么需要hadoop?

当今世界,我们面对着海量的数据,这些数据往往分散在多个计算机或服务器上。为了能够高效地处理和分析这些大规模的数据集,我们需要一个强大的工具,这就是Hadoop。所以说hadoop就是一个可以高效处理和分析大规模数据集的工具。

3.为什么我们需要Hadoop呢?

主要原因有两个。首先,传统的计算机往往无法处理大规模的数据,因为它们的计算和存储能力有限。而Hadoop利用了集群中多台计算机的计算和存储资源,可以同时处理大量数据,加快处理速度。其次,Hadoop提供了容错机制,即使集群中的某台计算机发生故障,整个系统仍然可以继续正常运行,保证数据的可靠性。

4.hadoop的作用

Hadoop的作用主要涉及两个方面:HDFS(Hadoop分布式文件系统)和MapReduce。HDFS是Hadoop的存储系统,它将大文件切分成多个小文件,并在集群中的多台计算机上进行分布式存储。而MapReduce是Hadoop的计算模型,它将一个大任务拆分成多个子任务,分布到不同的计算机上并行执行,最后将结果进行合并。

5.Hadoop的核心组件包括

(1)HDFS(Hadoop分布式文件系统):用于在集群中分布式存储大规模数据。

(2)MapReduce:用于将任务拆分成子任务,在集群中并行执行和处理大规模数据。

(3)YARN(Yet Another Resource Negotiator):作为Hadoop的资源管理器,负责集群中计算资源的分配和调度。
也可以多看看别的介绍;
Hadoop的核心由3个部分组成:

HDFS: Hadoop Distributed File System,分布式文件系统,hdfs还可以再细分为NameNode、SecondaryNameNode、DataNode。

YARN: Yet Another Resource Negotiator,资源管理调度系统

Mapreduce:分布式运算框架

6.与类似工具相比hadoop的优势

(1)相比于传统的关系型数据库,Hadoop可以处理更大规模的数据,并具有更好的可扩展性和容错性。
(2)相比于其他分布式计算框架,Hadoop是一个完整的生态系统,提供了丰富的工具和库,支持多种数据处理需求。此外,Hadoop的开源性质使得它可以在各种环境下自由使用和定制。

7.hadoop的局限性

(1)它对实时性要求较低,适合批处理和离线数据处理,不适合处理对实时性有较高要求的应用。
(2)Hadoop对于小规模数据的处理可能会存在较高的开销,因为它需要维护分布式文件系统和任务调度等额外开销。

在华为云Centos8上安装hadoop

posted @ 2023-05-29 15:53  蹇爱黄  阅读(15)  评论(0编辑  收藏  举报