第十八篇|故障定位套路——不开机→告警灯→POST→平台内→硬件替换的闭环
栏目:服务器硬件体系化
作者:闲叔不闲
关键词:BMC、IPMI/Redfish、SEL、POST 代码、KVM/SOL、MCE/EDAC、SMART/NVMe、最小化启动、FRU/RMA、回归测试
摘要
故障处理不是“靠感觉”,而是从外到内、由简到繁的系统化流程:不开机 → 告警灯/蜂鸣 → POST → 架构内 → 硬件替换。本篇给出 决策流 + 检查清单 + 命令速查 + 典型现象对照表,帮助你把一次事故走成可复盘的闭环。
目录
0. 入场三件事:安全/隔离/取证
1. 不开机(上电失败/反复重启)
2. 告警灯/蜂鸣(就地指示)
3. 卡在 POST(代码/自检/引导)
4. 进系统后异常(日志/性能/偶发重启)
5. 硬件替换与闭环(FRU→RMA→回归)
6. 典型现象→快速判断对照表
7. 命令与工具速查(Linux/Windows/BMC)
8. 常见坑与对策(14 条)
9. 闲叔小结
0. 入场三件事:安全/隔离/取证
人身与电气安全:断电/防静电/两人运行;机柜供电 A/B 路确认。
业务隔离:确认是否可下线或切换;标记设备,防止他人误操作。
取证留痕:拍照(告警灯/线缆/板卡位置)、导出SEL/传感器、记录时间与环境(温湿度/功率)。
1. 不开机(上电失败/反复重启)
步骤:
带外可达?
ping bmc→ 可达则用 IPMI/Redfish查电源/传感器;不可达检查PDU/电源线/PSU 指示灯。PSU 与配电:确认 1+1/N+1冗余在;两只 PSU 不要插同一 PDU;看PSU LED/告警。
前面板/主板跳线:电源开关/入侵开关是否异常;检查Power Restore Policy。
最小化启动:拔掉所有 PCIe/盘,只留CPU+1 条/槽内存(按指南位)+板载显卡/管理口。

浙公网安备 33010602011771号