Minisforum MS-A2 怎么部署 vSAN ESA?性能优化超详细指南
用 Minisforum MS-A2 搭建三节点 VCF 9.0 实验室近一年,这款设备本身运行稳定,但近期测试 VCF 部署与升级场景时,我发现环境突然变得卡顿,10GbE 端到端的 vSAN 网络带宽却只有 1-2Gbps。经过和专业人士一起排查,问题锁定在 Intel X710 网卡的硬件卸载功能 bug,以及消费级 NVMe 硬盘的性能短板。本文用大白话拆解问题根源,一步步教你禁用异常设置、切换交换机模式、升级硬盘,新手也能跟着操作,让 MS-A2 的 vSAN ESA 性能拉满。
一、实验背景:MS-A2 搭建 VCF 实验室遇性能卡顿
我用 Minisforum MS-A2 以三节点配置,部署了完整的 VMware Cloud Foundation(VCF)9.0 堆栈,这套环境已经稳定运行了近一年。要知道,MS-A2 并不在博通兼容性指南(BCG)的收录列表里,但作为实验室设备,它的稳定性完全能满足日常使用。
可在过去几周,我对 VCF 的部署、升级场景做高强度测试时,明显感觉到整个实验室环境运行迟缓,这是从未遇到过的情况。起初我以为是测试操作的问题,可反复排查后发现,核心症结出在设备的硬件配置上,尤其是网络和存储两个环节。
二、核心问题排查:网络层的 “隐形性能陷阱”
和专业工程师 Nicholas Wilson 一起排查数小时后,我们终于定位到,问题根源来自 MS-A2 的板载 10GbE SFP + 网卡 ——Intel X710。这款网卡的硬件卸载功能存在明显缺陷,直接导致 vSAN ESA 的性能大幅下降。
(一)问题根源:Intel X710 的 LRO 功能 bug
Intel X710 的 LRO(大型接收卸载)功能是导致卡顿的关键。简单来说,LRO 是让网卡帮服务器拆分巨型数据包,减少 CPU 的计算压力,但 Intel 的实现方式存在漏洞:它会把巨型数据包拆分到不同的 RX 接收队列中,最终导致数据包乱序到达,服务器不得不重新传输数据。
而我们的环境是 vSAN ESA(极速存储架构),这套架构自带自适应网络流量整形功能,会把 LRO 导致的数据包乱序问题标记为硬件错误,进一步限制 I/O 性能,这就是为什么 10GbE 网络的实际带宽只有 1-2Gbps。
(二)优化方法 1:禁用 LRO 硬件卸载(附操作代码)
这是最核心的修复步骤,通过 ESXCLI 命令就能关闭 LRO 的硬件卸载,操作后需要重启服务器生效。
执行禁用命令:
esxcli system settings advanced set -i 0 -o /Net/TcpipDefLROEnabled
验证设置是否生效:
esxcli system settings advanced list -o /Net/TcpipDefLROEnabled
关键提醒:执行命令后,必须重启 ESXi 主机,设置才能真正生效。
(三)优化方法 2:禁用 TSO 硬件卸载(附操作代码)
由于 Intel X710 本身存在 LRO 与 TSO(TCP 分段卸载)的兼容性问题,为了避免后续出现新的网络异常,我们可以一起禁用 TSO 的硬件卸载,步骤和禁用 LRO 完全一致。
执行禁用命令:
esxcli system settings advanced set -o /Net/UseHwTSO -i 0
验证设置是否生效:
esxcli system settings advanced list -o /Net/UseHwTSO
关键提醒:同样需要重启 ESXi 主机,设置才能生效。
(四)优化方法 3:切换到 EDP 交换机模式
我最初部署时用的是标准交换机模式,因为一开始的硬件设备不支持增强型数据路径(EDP)。但 MS-A2 的 Intel X710 网卡完全支持 EDP,切换后能给 vSAN ESA 带来明显的性能提升。
检查网卡是否支持 EDP:在 ESXi 主机执行命令
esxcfg-nics -e
切换模式:通过 VCF 安装程序部署 VCF 时,直接选择ENS 交换机模式(EDP 对应的模式),这种模式会给 vSAN ESA 提供 8 个 CPU 辅助线程,比默认的 4 个多了一倍,数据处理效率大幅提升。
(五)优化方法 4:增大 ENS RX 接收环大小
Intel X710 默认只使用最小的 RX/TX 接收 / 发送环大小(均为 1024),把 RX 环调大到支持的最大值 4096,能进一步提升网络数据接收能力。注意:家庭实验室搭配消费级交换机时,只调 RX 环即可,TX 环保持默认,否则会超出物理交换机的处理能力。
执行调大命令(以 vmnic1 为例,需替换为自己的网卡名):
nsxdp-cli ens uplink ring set -r 4096 -n vmnic1
net-dvs --persist
验证设置是否生效:
nsxdp-cli ens uplink ring get -n vmnic1
三、次要问题解决:存储层的 “拖后腿者”
完成上述网络优化后,我发现环境在高负载下依然会卡顿。进一步排查后发现,问题出在消费级 NVMe 硬盘上 —— 这些硬盘要么性能衰减,要么写入延迟过高,根本跟不上 vSAN ESA 的高负载需求。
我尝试了多款消费级 NVMe,包括带板载 DRAM 的型号,但写入延迟的问题始终没有解决。最后我硬着头皮更换了性能更强的硬盘,为三台 MS-A2 各配备了一块三星 990 Pro 1TB NVMe M.2 2280硬盘。更换完成后,vSAN ESA 的性能完全达到了预期,高负载下也不再卡顿。
四、总结与经验分享
这次优化让我深刻体会到:消费级硬件虽然价格亲民,但在搭建专业的虚拟化实验室时,性能短板会非常明显。尤其是网络和存储这两个核心环节,多投入一点资金选择高性能硬件,能避免后续大量的排查和优化工作。
通过禁用 Intel X710 的 LRO/TSO 硬件卸载、切换 EDP 交换机模式、增大 RX 环,再搭配三星 990 Pro NVMe 硬盘,MS-A2 的 vSAN ESA 性能终于拉满,10GbE 网络的带宽也恢复了正常。这套优化方法不仅适用于 MS-A2,只要是使用 Intel X710 网卡的设备,都可以参考这套步骤进行调整。
注·部分内容为AI辅助生成
浙公网安备 33010602011771号