摘要: 背景 训练集群中使用dcgm-expoter对GPU状态进行采集和上报,服务中通过获取promethes数据监测显卡的负载情况及报错情况,其中监测报错使用的DCGM_FI_XID_ERRORS指标获取,这个指标用起来有问题,首先是错误码不会清除,观测到Xid31错误后,每次采集这张卡都会返回xid3 阅读全文
posted @ 2025-05-30 16:16 花开富贵sgy 阅读(296) 评论(0) 推荐(0)