Hadoop知识总结

Hadoop起源

基于海量数据存储的问题,Google发表了两篇论文《Google File System》《Google MapReduce》

其中《Google File System》简称GFS,是Google公司用于解决存储海量数据的文件系统,《Google MapReduce》简称MapReduce,是Google的计算框架,基于GFS。

2006年cutting根据《Google File System》设计了HDFS,即hadoop distributed file system(Hadoop分布式文件系统),又基于《Google MapReduce》设计了计算框架MapReduce。

总得来说,Hadoop分布式文件系统以及MapReduce计算框架都是基于Google发布的论文后实现的,可见看书真的是一件不错事,书中自有黄金屋。

大数据的特点

Hadoop的作业范围为大数据,那么什么是大数据呢?

1.TB,PB级别的数据

2.非结构化数据

3.快速增涨,每天都会发生大量数据产生

Hadoop版本介绍和安装

版本介绍

Hadoop的版本分为三代,Hadoop1.0,Hadoop2.0,以及第三代alpha测试版,现在的企业多为使用第二版本

Hadoop1.0的核心:HDFS+MapReduce

Hadoop2.0的核心:在Hadoop2.0中,新引入了Yarn,HDFS+Yarn+MapReduce

Yarn是资源调度框架,能够细粒度的管理和调度任务,在Linux系统中,其生成的任务为ReduceManager,为计算框架的首脑,负责分配计算任务。此外,还能够支持其他的计算框架,比如:Spark等

安装

Hadoop的安装分为三种模式:单机模式、伪分布式模式、完全分布式模式

单机模式是Hadoop的默认模式,当完成Hadoop的安装后,其配合文件为空,Hadoop会完运行在本地,因为不需要与其他节点交互,所以不使用HDFS,该模式下适合调试MapReduce计算逻辑

伪分布式模式 Hadoop有守护进程,其实与完全分布式模式相当,只是采取最小节点数完成配置,可以使用HDFS、MapReduce

完全分布式模式 Hadoop守护进程运行在一个集群上面

伪分布模式安装

1.准备虚拟机,最低的工作内存1G,通过xshell来管理

2.关闭防火墙

3.配置主机名

4.配置hosts文件

5.配置免密码登录

6.安装和配置jdk

7.上传和安装hadoop

8.配置hadoop配置文件

具体安装细节请访问:https://www.cnblogs.com/zuif/articles/10025828.html

 

 

 

 

 

posted @ 2018-11-27 13:23  丶Biu~  阅读(18)  评论(0)    收藏  举报