摘要: 1. 环境 1.1. 硬件 服务器:R740XD 显卡:Tesla V100 SXM2 16GB 外置电源(用于显卡供电):大水牛 1.2. 软件 系统:Ubuntu12.04.02 2. 问题现象 在模型训练阶段,显卡上负载后不定时系统重启。经查阅日志syslog、journalctl、sudo 阅读全文