vSphere FT 容错集群完整教程:FT 最低 2 台 ESXi 要求、原理、限制与生产规范

很多运维区分不清 HA 故障切换与 FT 零停机容错,经常疑惑 FT 需要多少台宿主机才能部署。核心标准:FT 至少需要 2 台独立 ESXi 主机运行同一台虚拟机的主、备用实例,单台主机无法开启 FT;高端多副本 FT 最多支持 3 台 ESXi。本文拆解 FT 双副本运行机制、硬件网络前置条件、FT 与 HA 差异、典型故障限制、上线校验标准,覆盖 vSphere 7.0/8.0 全版本。

一、核心结论一句话吃透

  1. 标准 FT(双副本零故障停机)最低必须 2 台不同 ESXi 主机,一台运行主 VM、一台运行备用 VM,两台实时同步内存与磁盘状态;
  2. 增强多副本 FT 可配置 3 台 ESXi,同时部署主、第一备用、第二备用,抵御两台主机同时故障;
  3. 单台 ESXi、同一台主机内部无法开启 FT,备用实例不能和主实例共享宿主机。

二、FT 双副本底层运行原理(双主机核心逻辑)

  1. 主机 A(主虚拟机 Primary):正常对外提供业务读写、内存运算、磁盘 IO;
  2. 主机 B(备用虚拟机 Secondary):持续同步主主机全部内存、寄存器、磁盘写入日志;
  3. FT 专用日志网络实时传输所有 CPU 指令、内存变更,备用虚拟机时刻和主虚拟机状态完全一致;
  4. 一旦主 ESXi 主机硬件宕机、断电、网卡故障,集群瞬间将备用虚拟机提升为主机,切换全程毫秒级,业务无中断、无重启、连接不丢失;
  5. 切换完成后系统自动在空闲主机重建新备用副本,维持双副本容错架构。

三、2 台 ESXi 部署 FT 硬性前置条件

仅两台主机无法直接开启 FT,必须配套网络、存储统一规划:

1. 存储要求

主、备用虚拟机必须放在同一共享存储(VMFS/vSAN/NFS),本地磁盘不支持 FT;两台主机都能读写该存储卷。

2. 独立 FT 日志网络(强制)

两台 ESXi 之间单独配置高速低延迟 FT 日志网卡,推荐 10G/25G 网卡独立交换机,不能与 vMotion、管理网卡共用:

  • FT 日志流量实时同步全部内存变更,带宽不足会造成虚拟机性能严重卡顿;
  • 往返 RTT 延迟必须稳定<5ms,否则 FT 报同步延迟过高告警。

3. CPU 兼容约束

两台 ESXi CPU 型号、代际尽量一致;跨不同 CPU 品牌 / 代际需开启 CPU 掩码屏蔽差异,否则 FT 无法创建备用实例。

4. 虚拟机硬件限制

虚拟机不支持直通 GPU、直通 USB、串行端口、多磁盘独立控制器等设备,开启 FT 前需移除直通硬件。

四、双副本 FT 与三副本 FT 区别

模式 所需 ESXi 数量 容灾能力 适用场景
标准双副本 FT 最少 2 台 单台主机故障自动切换,两台同时故障则业务中断 绝大多数普通业务、数据库、中间件
三副本增强 FT 最少 3 台 最多同时损坏 2 台主机,剩余一台自动接管 核心支付、交易系统、零中断强要求业务

五、HA 高可用 vs FT 容错核心区分(避免概念混淆)

  1. HA(仅需 1 台以上主机,无强制双机) 主机故障后虚拟机重启,业务会中断数十秒,依靠快照 / 磁盘恢复,仅保证开机,不保留内存会话;不需要专用同步网卡,配置简单。
  2. FT(强制至少 2 台主机) 实时同步内存状态,故障切换毫秒级,TCP 连接不中断,业务零停机;必须独立 FT 日志高速网卡,硬件约束严格。

六、2 台 ESXi 开启 FT 完整操作流程

  1. 两台 ESXi 加入同一 vSphere 集群,集群开启 DRS;
  2. 两台主机配置独立 FT 日志虚拟网卡,10G 以上高速链路互通;
  3. 虚拟机存放于两台主机均可访问的共享存储,移除所有 PCI 直通硬件;
  4. 关闭虚拟机,右键【容错】→【开启容错】;
  5. vCenter 自动在第二台空闲 ESXi 创建备用虚拟机,完成内存全量同步;
  6. 同步完成后虚拟机开机,FT 保护生效,监控面板显示主 / 备两台主机状态。

七、高频故障:两台 ESXi 仍无法开启 FT 常见原因

  1. 两台主机无独立 FT 日志网卡,复用管理 /vMotion 网卡;
  2. FT 链路延迟长期>5ms,同步超时创建备用副本失败;
  3. 虚拟机存在 GPU、HBA、USB 硬件直通,FT 硬件校验拦截;
  4. 两台主机 CPU 架构差异过大,未配置 CPU 兼容掩码;
  5. 虚拟机使用本地磁盘,未挂载共享存储;
  6. 集群 DRS 关闭,无法自动调度备用虚拟机至第二台主机。

八、高频误区避坑指南

  1. 误区 1:FT 可以只在一台 ESXi 上运行,不需要第二台主机 纠正:FT 备用实例必须放置不同宿主机,单台主机无法抵御硬件故障,系统直接禁止开启 FT。
  2. 误区 2:HA 需要 2 台主机,FT 和 HA 主机数量要求一样 纠正:HA 集群最少 1 台主机即可创建,仅故障切换依赖其他节点;FT 强制至少 2 台独立 ESXi 承载主备实例。
  3. 误区 3:两台主机 FT 可以共用 vMotion 网卡做 FT 同步 纠正:FT 日志流量巨大,必须独立 10G 网卡,共用会造成同步延迟、虚拟机卡顿、FT 保护失效。
  4. 误区 4:FT 备用虚拟机可以手动放到同一台主主机上 纠正:vCenter 自动调度备用实例至其他 ESXi,无法手动同主机部署,架构失去容错意义。
  5. 误区 5:3 副本 FT 只需要 2 台主机就能部署 纠正:三副本 FT 需要 3 台独立 ESXi,三台各运行一份虚拟机副本。

九、全文总结

部署 vSphere 标准 FT 零停机容错虚拟机,至少需要 2 台独立 ESXi 主机,分别承载主虚拟机与实时同步的备用虚拟机,依靠独立高速 FT 日志网卡同步内存、CPU 状态,主机故障时毫秒级切换无业务中断;核心交易等极致高可用场景可使用增强三副本 FT,最低要求 3 台 ESXi。

两台主机部署 FT 必须配套共享存储、10G 独立 FT 专用链路、兼容 CPU,同时移除虚拟机所有硬件直通设备;区分 HA 重启式故障恢复,FT 依靠双主机实时内存同步实现业务零中断,是核心业务无停机容灾首选方案。

注·部分内容为AI辅助生成

posted @ 2026-06-26 15:10  园囧囧园  阅读(6)  评论(0)    收藏  举报