(记录自用,参考价值低)分布式大数据处理Hadoop学习与探索1:虚拟机
一、实验环境
- 系统:window 10
- 配置:内存16GB;可用磁盘:300G;cpu核心数:8
- 使用软件与版本:
vmware 15.5 pro
linux CentOS 7.5
- 如何查看cpu核心数:https://www.cnblogs.com/zhangchao0515/p/15250319.html
(完成难度:低)
二、学习探索内容
- 基本需求:完成linux虚拟机创建启动,并使用linux虚拟机搭建Hadoop分布式大数据处理环境。
- 进阶1:基于Hadoop环境,完成离线、实时数据处理任务。并使环境、任务稳定运行一段时间。
- 进阶2:学习探索虚拟机搭建、大数据环境搭建过程中磁盘、内存、网络等指标的范围与需求。
- 进阶3:学习探索Hadoop大数据组件的基础配置与配置调优。
- 进阶4:搭建、维护k8s集群。
三、安装vmware
参考博客:https://www.cnblogs.com/fuzongle/p/12760193.html
(完成难度:低)
四、使用vmware创建虚拟机
1. CentOS7.5镜像下载:链接:https://pan.baidu.com/s/18hdcWE4tYQOxMov2w0IlBQ?pwd=486k 提取码:486k
2. 安装过程参考:https://blog.csdn.net/bdqn_zyjy/article/details/120975586
(完成难度:中等)
根据这篇博客,我们就可以搭建一个linux虚拟机。其中的内存、磁盘、cpu数、核心数可根据宿主机配置与需求修改,下面会详细分析一下。
3. 安装位置与磁盘
安装位置不建议放默认的C盘,可以在其他盘创建一个专门存放虚拟机的文件夹。关于虚拟机磁盘大小,即使给虚拟机分配了100GB磁盘,只是创建、启动并不会占用多少宿主机磁盘(启动会占用内存),但是再后续使用的过程中虚拟机下载安装软件、存放数据,会增大宿主机磁盘占用。
a. 虚拟机磁盘占用与宿主机占用
- CentOS 桌面版创建、启动后的系统磁盘占用:

- 查看宿主机磁盘大小:发现可用容量减少了几GB

- 关机后查看宿主机磁盘:可用容量增加4GB左右

- 安装jdk、hadoop环境之后,开机与关机分别占用宿主机的磁盘大小
待补充
b. 虚拟机设定值过大会怎么样
- 将本来100GB的磁盘空间扩展为400GB。扩容后、启动虚拟机,打开任务管理器。

结果显示可以正常创建、使用。不过推测肯定不能存储400GB数据(实际上我电脑所有盘的可用空间加起来都没有400GB了),虚拟机理论上要小于宿主机的可用空间。

c. 小结
虚拟机磁盘大小只是设置一个可用磁盘上限,并不是实际占用,也不是实际可用(所以可以随便点,不要太小就可以)。这里根据我们的需求,需创建3个虚拟机,每个100GB就可以了。
4. cpu数与核心数
cpu虚拟化
-
不考虑计算机虚拟化技术的话,虚拟机台数 * 虚拟机cpu个数 * cpu核心数 <= 宿主机cpu个数 * cpu核心数。我的电脑只有8核,要创建3个虚拟机,2 2 4是比较合理的分配。
-
但是既然cpu有虚拟化技术,我们试下多配置几个核心。

不让配!多次测试后发现最多只能配置8个。那我们多开个虚拟机试试。
创建、启动虚拟机后,查看虚拟机的基本信息(这次是最小安装,用命令行看一下)。

这里测试了2个4核虚拟机,1个8核虚拟机可以同时正常运行。 -
小结
单个虚拟机配置有要求,多个虚拟机cpu内核总数可超过宿主机cpu核心数。根据我们需求,三各虚拟机,4 4 4分配,或者2 2 4都是可以的。
5. 内存
- 开启虚拟机后,宿主机的内存变化时很明显的。理论上来说,虚拟机占用内存+宿主机占用内存<宿主机物理内存。
- 但根据实践,是有一些偏差的。
- 宿主机常用软件与windows大概占用40%(6.4GB)左右。测试中开启3个4GB内存的虚拟机(每个配置了4GB内存),宿主机内存占用70%-80%。
- 如果计算配置内存(每个虚拟机4GB),肯定超过了宿主机的实际内存,显然并不是配置了多少内存开机就占用多少。
- 虚拟机实际占用内存 = 200MB(最小化安装)+800MB(图形化安装)+200MB(最小化安装)+虚拟机内存损耗,这样比较合理。
- 小结:虽然配置内存并不代表实际占用内存,但是配置内存过高时,虚拟机使用到了,会导致宿主机内存不够用。根据需求,三个虚拟机4GB 3GB 3GB这样来配置。
6. 网络
这里有两个需要注意的地方:1.能连网 2.配置静态ip(linux默认ip自动分配,被坑过,关、开机一次ip变了)
安装时点了一下以太网模块的开启按钮,启动虚拟机直接就连上了。但这是我之前配置好了VMware的结果。
总体来讲需要配置3个地方:宿主机,VMware,虚拟机。
1.电脑(运行虚拟机的windows)(PS:网上很多博客缺少这部分)
设置->查找设置->网络连接->启用VMnet8->鼠标右键点击VMnet8->属性->ipv4设置
IP地址:使用下面的IP地址
| 设置 | value |
|---|---|
| IP地址 | 192.168.10.15 |
| 子网掩码 | 255.255.255.0 |
| 默认网关 | 192.168.10.2 |
dns设置:使用下面的DNS地址
| 设置 | value |
|---|---|
| 首选DNS | 192.168.10.2 |
| 备用DNS | 8.8.8.8 |
2.vmware设置
编辑->虚拟网络编辑器->右下的'更改设置'
VMnet信息
- 选中NAT模式
- 子网IP:192.168.10.0
- 子网掩码:255.255.255.0
编辑->虚拟网络编辑器->右下的'更改设置'->NAT设置
- 网关:192.168.10.2
3.虚拟机设置
vi /etc/sysconfig/network-scripts/ifcfg-ens33
#替换为以下内容
#注意这里第四行配置了静态ip
DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"
IPADDR=192.168.10.102
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2
#重启网卡
/etc/init.d/network restart
7. 最小安装与图形化的使用体验
GOME图形化安装:
- 使用方便。设置密码、查看图形化任务管理器、火狐浏览器、视频播放器、文本编辑器等都很好用。喜欢命令行也可以随时打开终端进行操作。
最小化安装:
- 安装快。 图形化安装1400个包,最小化安装300个包。
- 占用内存小。最小安装需要不到200MB内存,而图形化系统需要多于800MB内存。
小结:这里取舍有点难,内存紧张,用最小化吧。
8. 最终确认比较合理的虚拟机配置
内存4GB 4核心(2 * 2)磁盘100GB 最小化安装 名称:superPC01 ip:192.168.10.135
内存3GB 2核心(1 * 2)磁盘100GB 最小化安装 名称:superPC02 ip:192.168.10.136
内存3GB 2核心(1 * 2)磁盘100GB 最小化安装 名称:superPC03 ip:192.168.10.137
弄好一个,克隆,修改。
安装个 network-tools.x86_64,可以使用ifconfig命令看ip地址。
配一下静态ip,并确认网络畅通。
#使用命令行测试网络
ping www.baidu.com

浙公网安备 33010602011771号