2. HADOOP集群搭建
一、发行版本
社区版:Apache软件基金维护,开源。稳定的版本是2.X
商业版:第三方公司维护,著名的有Cloudera的CDH、MapR等。
Hadoop由GNU/Linux平台支持(建议),也可以运行在windows下。
二、集群简介
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,物理上常在一起。
HDFS集群:负责海量数据的存储,集群中的角色主要有:
NameNode(主角色)、DataNode(数据)、SecondaryNameNode(副角色)
YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有:
ResourceManager(主脚色)、NodeManager
mapreduce:是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在HDFS集群上,并且受到YARN集群的资源调度管理。
Hadoop部署方式分三种,Standalone mode(独立模式)、Pseudo-Distributed mode(伪分布式模式)、Cluster mode(群集模式),其中前两种都是在单机部署。
独立模式:又称为单机模式,仅1个机器运行1个java进程,主要用于调试。
伪分布模式:也是在1个机器上运行HDFS的NameNode和DataNode、YARN的ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。
集群模式:主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。

三、Linux下Hadoop集群的搭建
(一) 虚拟环境
vMware WorkStation虚拟机:
(中文名“威睿工作站”)是一款功能强大的桌面虚拟计算机软件,提供用户可在单一的桌面上同时运行不同的操作系统,和进行开发、测试 、部署新的应用程序的最佳解决方案。虚拟机是独立运行主机操作系统的离散环境。在 VMware Workstation 中,你可以在一个窗口中加载一台虚拟机,它可以运行自己的操作系统和应用程序。
计算机虚拟能力,性能与物理机隔离效果非常优秀。
功能非常全面,倾向于计算机专业人员使用。
操作界面简单明了,适用各种计算机领域的用户。
体积庞大,安装时间耗时较久。
使用时占用物理机资源较大。
VMware Workstation 14 Pro安装教程
(二)网络环境准备
采用NAT方式联网。(Network Address Translation,网络地址转换)
浙公网安备 33010602011771号