Hadoop概论

Hadoop的定义

​ Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算 。(百度百科)

Hadoop的诞生

​ Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。

​ Apache 版本最原始(最基础)的版本,对于入门学习最好。2006
​ Cloudera 内部集成了很多大数据框架,对应产品 CDH。2008
​ Hortonworks 文档较好,对应产品 HDP。2011
​ Hortonworks 现在已经被 Cloudera 公司收购,推出新的品牌 CDP。 2018
​ 2021宣布所有版本收费

Hadoop的地位

大数据生态圈

由此可见,Hadoop位于整个大数据生态圈的最底层,是学习整个大数据框架的关键。

Hadoop的技术架构

架构图

现版本为3.x.x,其技术架构和2.0相同。

主要技术框架:

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。 用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序

Hadoop特点

参考链接:https://blog.csdn.net/qq_42937522/article/details/121016314

posted @ 2022-05-26 23:34  拉普拉斯_凯  阅读(52)  评论(0编辑  收藏  举报