2. HADOOP集群搭建

一、发行版本

社区版:Apache软件基金维护,开源。稳定的版本是2.X

商业版:第三方公司维护,著名的有Cloudera的CDH、MapR等。

Hadoop由GNU/Linux平台支持(建议),也可以运行在windows下。

二、集群简介

HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,物理上常在一起。
HDFS集群:负责海量数据的存储,集群中的角色主要有:
      NameNode(主角色)、DataNode(数据)、SecondaryNameNode(副角色)
YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有:
      ResourceManager(主脚色)、NodeManager

mapreduce:是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在HDFS集群上,并且受到YARN集群的资源调度管理。

Hadoop部署方式分三种,Standalone mode(独立模式)、Pseudo-Distributed mode(伪分布式模式)、Cluster mode(群集模式),其中前两种都是在单机部署。
独立模式:又称为单机模式,仅1个机器运行1个java进程,主要用于调试。
伪分布模式:也是在1个机器上运行HDFS的NameNode和DataNode、YARN的ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。
集群模式:主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。

 

 三、Linux下Hadoop集群的搭建

(一) 虚拟环境

  vMware WorkStation虚拟机:

(中文名“威睿工作站”)是一款功能强大的桌面虚拟计算机软件,提供用户可在单一的桌面上同时运行不同的操作系统,和进行开发、测试 、部署新的应用程序的最佳解决方案。虚拟机是独立运行主机操作系统的离散环境。在 VMware Workstation 中,你可以在一个窗口中加载一台虚拟机,它可以运行自己的操作系统和应用程序。

计算机虚拟能力,性能与物理机隔离效果非常优秀。

功能非常全面,倾向于计算机专业人员使用。

操作界面简单明了,适用各种计算机领域的用户。

体积庞大,安装时间耗时较久。

使用时占用物理机资源较大。

VMware Workstation 14 Pro安装教程

(二)网络环境准备

采用NAT方式联网。(Network Address Translation,网络地址转换)

posted on 2019-01-05 14:27  祁连牧师  阅读(86)  评论(0)    收藏  举报