1. 环境
1.1. 硬件
服务器:R740XD
显卡:Tesla V100 SXM2 16GB
外置电源(用于显卡供电):大水牛
1.2. 软件
系统:Ubuntu12.04.02
2. 问题现象
在模型训练阶段,显卡上负载后不定时系统重启。经查阅日志syslog、journalctl、sudo ipmitool sel list,发现是显卡pci槽位报错导致。

2b | 05/09/2025 | 04:30:12 PM CST | Physical Security #0x73 | General Chassis intrusion () | Asserted
2c | 05/09/2025 | 04:40:57 PM CST | Critical Interrupt #0x18 | Bus Fatal Error ( Slot 5) | Asserted
2d | 05/09/2025 | 04:40:57 PM CST | Critical Interrupt #0x38 | | Asserted
2e | 05/09/2025 | 04:40:57 PM CST | Unknown #0x1a | | Asserted
2f | 05/09/2025 | 04:40:57 PM CST | Unknown #0x1a | | Asserted
经更换PCIe延长线、PCIe槽位均不能解决问题。
3. 问题原因
在进行硬件更换定位问题原因时意外发现,外置电源的电源线断开后,服务器开机时显卡风扇专断、外置电源风扇转动,所以怀疑外置电源并没有给显卡供电。当显卡负载提高时,服务器会出现重启。

4. 解决办法
短接外置电源pin口,传递开机信号,使外置电源持续供电。经24小时烤机,发现不再出现显卡负载高时系统重启问题。


武汉有为科技有限公司
崔磊
2025.05.12
浙公网安备 33010602011771号