某项目三台设备PCIE Surprise Down故障分析

描述:

某项目交付过程中,发现三台服务器报The PCIe Card 1 (PCIe Device) triggered an uncorrectable error的错误(如下图)

分析

通过fdm/fdm_output日志,发现存在大量的PCIe的报错(如下),可以看出来全是Surprise Down Error错误,且问题都说发生在CPU1 的Riser模组上

检查Riser模组的状态,确实存在Riser模组存在掉卡情况

根因:

1、 产生PCIe Surprise Down的条件

当PCIe设备从 DL_Active 到 DL_Inactive 的这种状态转换视一个Surprise Down Error错误(如下图)不可恢复错误

2、产生这种状态转换的情况的原因有如下两种情况

  1、 Physical Layer reports Physical LinkUp = 0b 物理链路状态为“未连接”(Physical LinkUp = 0b)

  2、 PCIE发生意外down,状态从DL_Active 到 DL_Inactive的转换

    是当PCIe设备在操作系统不知情的情况下突然停止响应或被移除的情况

    硬件故障、电源问题、热插拔事件或其他不可预见的原因引起的。

当发生Surprise Down时,设备可能会立即停止通信,导致正在进行的事务中断,并可能引发各种错误条件。

解决:

1. 关闭服务器电源,检查组件与其插槽之间是否有损坏或接触不良的情况, 重新拔插PCIE卡。

2. 更换组件并检查是否有报警。

 

posted @ 2025-03-27 11:13  杨灏  阅读(299)  评论(0)    收藏  举报