Hadoop知识总结
Hadoop起源
基于海量数据存储的问题,Google发表了两篇论文《Google File System》《Google MapReduce》
其中《Google File System》简称GFS,是Google公司用于解决存储海量数据的文件系统,《Google MapReduce》简称MapReduce,是Google的计算框架,基于GFS。
2006年cutting根据《Google File System》设计了HDFS,即hadoop distributed file system(Hadoop分布式文件系统),又基于《Google MapReduce》设计了计算框架MapReduce。
总得来说,Hadoop分布式文件系统以及MapReduce计算框架都是基于Google发布的论文后实现的,可见看书真的是一件不错事,书中自有黄金屋。
大数据的特点
Hadoop的作业范围为大数据,那么什么是大数据呢?
1.TB,PB级别的数据
2.非结构化数据
3.快速增涨,每天都会发生大量数据产生
Hadoop版本介绍和安装
版本介绍
Hadoop的版本分为三代,Hadoop1.0,Hadoop2.0,以及第三代alpha测试版,现在的企业多为使用第二版本

Hadoop1.0的核心:HDFS+MapReduce
Hadoop2.0的核心:在Hadoop2.0中,新引入了Yarn,HDFS+Yarn+MapReduce
Yarn是资源调度框架,能够细粒度的管理和调度任务,在Linux系统中,其生成的任务为ReduceManager,为计算框架的首脑,负责分配计算任务。此外,还能够支持其他的计算框架,比如:Spark等
安装
Hadoop的安装分为三种模式:单机模式、伪分布式模式、完全分布式模式
单机模式是Hadoop的默认模式,当完成Hadoop的安装后,其配合文件为空,Hadoop会完运行在本地,因为不需要与其他节点交互,所以不使用HDFS,该模式下适合调试MapReduce计算逻辑
伪分布式模式 Hadoop有守护进程,其实与完全分布式模式相当,只是采取最小节点数完成配置,可以使用HDFS、MapReduce
完全分布式模式 Hadoop守护进程运行在一个集群上面
伪分布模式安装
1.准备虚拟机,最低的工作内存1G,通过xshell来管理
2.关闭防火墙
3.配置主机名
4.配置hosts文件
5.配置免密码登录
6.安装和配置jdk
7.上传和安装hadoop
8.配置hadoop配置文件
具体安装细节请访问:https://www.cnblogs.com/zuif/articles/10025828.html

浙公网安备 33010602011771号