Hadoop知识总结

Hadoop起源

基于海量数据存储的问题，Google发表了两篇论文《Google File System》《Google MapReduce》

其中《Google File System》简称GFS，是Google公司用于解决存储海量数据的文件系统，《Google MapReduce》简称MapReduce，是Google的计算框架，基于GFS。

2006年cutting根据《Google File System》设计了HDFS，即hadoop distributed file system（Hadoop分布式文件系统），又基于《Google MapReduce》设计了计算框架MapReduce。

总得来说，Hadoop分布式文件系统以及MapReduce计算框架都是基于Google发布的论文后实现的，可见看书真的是一件不错事，书中自有黄金屋。

Hadoop的作业范围为大数据，那么什么是大数据呢？

1.TB，PB级别的数据

2.非结构化数据

3.快速增涨，每天都会发生大量数据产生

Hadoop的版本分为三代，Hadoop1.0，Hadoop2.0，以及第三代alpha测试版，现在的企业多为使用第二版本

Hadoop1.0的核心：HDFS+MapReduce

Hadoop2.0的核心：在Hadoop2.0中，新引入了Yarn，HDFS+Yarn+MapReduce

Yarn是资源调度框架，能够细粒度的管理和调度任务，在Linux系统中，其生成的任务为ReduceManager，为计算框架的首脑，负责分配计算任务。此外，还能够支持其他的计算框架，比如：Spark等

Hadoop的安装分为三种模式：单机模式、伪分布式模式、完全分布式模式

单机模式是Hadoop的默认模式，当完成Hadoop的安装后，其配合文件为空，Hadoop会完运行在本地，因为不需要与其他节点交互，所以不使用HDFS，该模式下适合调试MapReduce计算逻辑

伪分布式模式 Hadoop有守护进程，其实与完全分布式模式相当，只是采取最小节点数完成配置，可以使用HDFS、MapReduce

完全分布式模式 Hadoop守护进程运行在一个集群上面

1.准备虚拟机，最低的工作内存1G，通过xshell来管理

2.关闭防火墙

3.配置主机名

4.配置hosts文件

5.配置免密码登录

6.安装和配置jdk

7.上传和安装hadoop

8.配置hadoop配置文件

具体安装细节请访问：https://www.cnblogs.com/zuif/articles/10025828.html

posted @ 2018-11-27 13:23 丶Biu~ 阅读(18) 评论(0) 收藏举报

刷新页面返回顶部