04 Hadoop思想与原理

1.用图与自己的话,简要描述Hadoop起源与发展阶段。

从与谷歌系统的关系,关键时间节点,1.x,2.x与3.x的区别,不同公司发行版本等方面来讲。

 

Hadoop是Apache旗下的一个用java语言实现的开源软件框架,是一个开发和运行处理大规模数据的软件平台。

Hadoop是Apache Lucene的创始人Doug Cutting创建的。起源于Nutch,Nutch的设计目标是构建一个大型的全网搜索引擎。在2004年的时候谷歌推出了MapReduce系统,同时,Nutch的开发人员以谷歌的技术为基础,开发实现了HDFS和MAPREDUCE,并从Nutch脱离成为独立的项目HADOOP,并开始了迅速的发展。hadoop的开发多基于谷歌的论文技术,因此hadoop的发展离不开谷歌。

版本不同:

1.X版本系列:第二代开源版本,主要修复了0.X版本的bug,现在已经被淘汰。

2.X版本系列:架构产生重大的变化,引入了yarn平台等特性,是现在的主流版本。

3.X版本系列:对HDFS、MapReduce、yarn都有较大的升级,增加了Ozone key-value存储。

发行版本主要分为免费开源版本和收费版本

Apache就是免费开源版本,靠全世界的优秀开源贡献者维护,更新较快。

HortonWorks,由雅虎主导的免费开源软件,有一整套的WEB管理界面。

Cloudera是收费版本。是美国一家大数据公司在apache的开源hadoop的版本上,修复了补丁,实现版本之间稳定运行

posted @ 2021-10-19 17:05  乌龙气泡水  阅读(43)  评论(0编辑  收藏  举报