Lustre文件系统多重挂载保护（MMP）

Lustre文件系统通过故障切换（Failover） 和多重挂载保护（MMP） 机制实现高可用性（HA），确保在大规模集群环境中服务的连续性和数据一致性。以下结合应用场景和实例详细说明其工作原理与实践：

故障切换通过冗余节点和共享存储实现，分为两种模式：

主动/被动模式（Active/Passive）
- 场景：适用于元数据服务器（MDS）的故障切换（Lustre 2.3及更早版本）。
- 原理：主MDS处理请求，备用MDS处于待机状态。若主节点故障，备用节点接管共享的元数据目标（MDT）。
- 示例：
  在石油勘探集群中，主MDS节点因硬件故障宕机，备用MDS在10秒内自动接管MDT，客户端仅感知短暂延迟，勘探作业无中断。
主动/主动模式（Active/Active）
- 场景：适用于对象存储服务器（OSS）和Lustre 2.4+的MDS（支持分布式命名空间DNE）。
- 原理：多个节点同时服务不同资源。例如，两个OSS节点各管理50%的OST；若一个OSS故障，另一个接管其全部OST。
- 示例：
  高性能计算（HPC）集群中，OSS-A负责OST 1-8，OSS-B负责OST 9-16。当OSS-A故障时，OSS-B无缝接管所有OST，客户端I/O自动重定向至OSS-B，聚合带宽不受影响。

MMP是Lustre 2.4+引入的机制，防止多个节点同时挂载同一存储目标，避免因并发写入导致的数据损坏。

HA集群维护期间：
- 示例：管理员在未停用主MDS的情况下，误将备用MDS挂载至同一MDT。MMP立即阻断挂载并记录错误日志，避免元数据损坏。
存储网络分区（Split-Brain）：
- 示例：网络故障导致两个MDS节点误判对方宕机，同时尝试挂载MDT。MMP仅允许先发起请求的节点挂载，另一节点进入等待状态。

需求：全天候运行科学计算任务，要求99.99%可用性。
配置：
- MDS：Lustre 2.8 + DNE，多个MDT主动/主动故障切换，支持条带化目录元数据扩展。
- OSS：双节点主动/主动故障切换，后端存储为RAID 6阵列。
效果：某TOP100超算集群部署后，MDS故障切换时间<30秒，全年计划外停机为0。

故障切换与MMP共同构成Lustre高可用核心机制，前者保障服务连续性，后者确保数据安全。实际部署需结合负载特征选择模式，并严格遵循硬件冗余和版本兼容性要求。

Lustre文件系统 多重挂载保护（MMP）