06-Slurm和Lustre的高可用HA集群配置 - LeeHang

针对半导体EDA仿真场景下基于Slurm和Lustre的高可用集群配置，以下是详细技术方案及配置示例：

一、架构设计

+-----------------------+
|   HA Cluster Layer    |
|  [Pacemaker+Corosync] |
+-----------------------+
          |
          VIP: 10.0.0.100
          |
+-----------------------+
|  Controller Nodes     |
|  Node1 (Active)       |<--Slurmctld
|  Node2 (Standby)      |<--SlurmDBD
+-----------------------+
          |
          |  StateSync
          v
+-----------------------+
|   Database Layer      |
|  Galera Cluster       |
|  (Node1,Node2,Node3)  |
+-----------------------+
          |
          |  NFS/Lustre
          v
+-----------------------+
|   Lustre Storage      |
|  [MDS1] [MDS2] (HA)   |
|  [OSS1-OSS4]          |
+-----------------------+
          |
          v
+-----------------------+
|  Compute Nodes        |
|  (100+ Nodes)         |
+-----------------------+

二、关键组件配置

1. Slurm控制器HA（Active/Standby）

配置文件：/etc/slurm/slurm.conf

ControlMachine=slurm-vip      # 虚拟IP对应的主机名
SlurmctldHost=node1,node2     # 主备控制器列表
StateSaveLocation=/lustre/slurm_state  # 共享存储路径

配置步骤：

在Node1/Node2配置共享存储挂载：

# /etc/fstab
10.0.0.50@tcp:/lustre /lustre lustre defaults 0 0

配置Pacemaker资源（示例片段）：

pcs resource create slurm-vip IPaddr2 ip=10.0.0.100 cidr_netmask=24
pcs resource create slurmctld systemd:slurmctld op monitor interval=30s
pcs constraint colocation add slurmctld with slurm-vip
pcs constraint order slurm-vip then slurmctld

2. 数据库高可用（Galera Cluster）

MariaDB Galera配置（/etc/my.cnf.d/galera.cnf）

[mysqld]
wsrep_on=ON
wsrep_provider=/usr/lib64/galera/libgalera_smm.so
wsrep_cluster_address="gcomm://node1,node2,node3"
wsrep_cluster_name=slurm_cluster
wsrep_sst_method=rsync
binlog_format=ROW

Slurm数据库配置（/etc/slurm/slurmdbd.conf）

StorageHost=node1,node2,node3  # 多数据库节点
StorageType=accounting_storage/mysql

3. Lustre存储HA

MDS双节点配置：

# 在两台MDS服务器上配置共享存储（如双控SAN）
mkfs.lustre --fsname=eda --mdt --mgs --index=0 /dev/sdb
mkfs.lustre --fsname=eda --mdt --mgs --index=1 /dev/sdb --failover=10.0.0.51@tcp

# 客户端挂载参数：
mount -t lustre -o flock,mdsmaxthreads=1024 10.0.0.50@tcp,10.0.0.51@tcp:/eda /lustre

OSS节点配置（4节点负载均衡）：

mkfs.lustre --ost --fsname=eda --index=0 /dev/sdc
mkfs.lustre --ost --fsname=eda --index=1 /dev/sdc --failover=10.0.0.61@tcp

4. 计算节点配置

/etc/slurm/slurm.conf关键参数：

SelectType=select/cons_tres
SelectTypeParameters=CR_CPU_Memory
GresTypes=gpu,lustre
NodeName=compute[1-100] Gres=lustre:/lustre

三、验证与容灾测试

Slurm控制器切换测试：

# 手动触发故障转移
pcs node standby node1
# 检查VIP是否迁移到node2
ip addr show | grep 10.0.0.100
# 验证作业提交
sbatch --wrap="sleep 60"

Lustre故障切换测试：

# 模拟MDS1宕机
umount /lustre@MDS1
# 观察客户端自动切换到MDS2
lfs mdts /lustre

数据库写入测试：

# 在任意节点插入测试数据
mysql -u slurm -p -e "INSERT INTO slurm.cluster_jobs ..."
# 停止当前主库节点，验证Galera自动选举
systemctl stop mariadb@galera

四、性能调优建议

Lustre优化：

# 客户端挂载参数优化
mount -t lustre -o rw,flock,noatime,readahead=32M,stripe_count=4

Slurm参数优化：

MessageTimeout=300       # 延长网络延迟容忍时间
MaxArraySize=1000000     # 支持大规模EDA任务阵列
PreemptType=preempt/partition_prio  # 实现任务抢占策略

网络配置：

# 使用RDMA加速Lustre
modprobe lnet
lnetctl net add --net o2ib --if ib0

五、监控与日志

Slurm状态监控：

sinfo -Nel      # 实时节点状态
scontrol show config | grep -i ha  # 检查HA配置生效

Lustre监控工具：

lfs df -h       # 存储容量监控
lctl get_param osc.*.stats  # 流量统计

数据库同步状态：

SHOW STATUS LIKE 'wsrep_%';  # 检查Galera同步状态

六、典型EDA任务提交示例

# 提交多节点并行仿真任务
sbatch --job-name=em_sim \
       --nodes=8 \
       --gres=lustre:/lustre:4 \
       --partition=eda_high \
       << EOF
#!/bin/bash
module load eda/synopsys
vcs -R -full64 design.v
EOF

通过以上配置，可实现：

Slurm控制器故障转移时间 < 30秒
Lustre存储服务中断 < 10秒
数据库事务零丢失
支持单集群5000+节点规模扩展

实际部署时需根据具体硬件性能调整参数，建议通过混沌工程工具定期进行故障注入测试。

posted on 2025-03-29 20:09 LeeHang 阅读(190) 评论(0) 收藏举报

刷新页面返回顶部