1. 环境

1.1. 硬件

服务器:R740XD

显卡:Tesla V100 SXM2 16GB

外置电源(用于显卡供电):大水牛

1.2. 软件

系统:Ubuntu12.04.02

2. 问题现象

在模型训练阶段,显卡上负载后不定时系统重启。经查阅日志syslog、journalctl、sudo ipmitool sel list,发现是显卡pci槽位报错导致。

 

 

  2b | 05/09/2025 | 04:30:12 PM CST | Physical Security #0x73 | General Chassis intrusion () | Asserted

  2c | 05/09/2025 | 04:40:57 PM CST | Critical Interrupt #0x18 | Bus Fatal Error ( Slot 5) | Asserted

  2d | 05/09/2025 | 04:40:57 PM CST | Critical Interrupt #0x38 |  | Asserted

  2e | 05/09/2025 | 04:40:57 PM CST | Unknown #0x1a |  | Asserted

  2f | 05/09/2025 | 04:40:57 PM CST | Unknown #0x1a |  | Asserted

 

 

经更换PCIe延长线、PCIe槽位均不能解决问题。

3. 问题原因

在进行硬件更换定位问题原因时意外发现,外置电源的电源线断开后,服务器开机时显卡风扇专断、外置电源风扇转动,所以怀疑外置电源并没有给显卡供电。当显卡负载提高时,服务器会出现重启。

 

 

4. 解决办法

短接外置电源pin口,传递开机信号,使外置电源持续供电。经24小时烤机,发现不再出现显卡负载高时系统重启问题。

 

 

 

 

 

 

 

武汉有为科技有限公司

崔磊

2025.05.12