第十八篇|故障定位套路——不开机→告警灯→POST→平台内→硬件替换的闭环

  • 栏目:服务器硬件体系化

  • 作者:闲叔不闲

  • 关键词:BMC、IPMI/Redfish、SEL、POST 代码、KVM/SOL、MCE/EDAC、SMART/NVMe、最小化启动、FRU/RMA、回归测试


摘要

故障处理不是“靠感觉”,而是从外到内、由简到繁的系统化流程:不开机 → 告警灯/蜂鸣 → POST → 架构内 → 硬件替换。本篇给出 决策流 + 检查清单 + 命令速查 + 典型现象对照表,帮助你把一次事故走成可复盘的闭环


目录

  • 0. 入场三件事:安全/隔离/取证

  • 1. 不开机(上电失败/反复重启)

  • 2. 告警灯/蜂鸣(就地指示)

  • 3. 卡在 POST(代码/自检/引导)

  • 4. 进系统后异常(日志/性能/偶发重启)

  • 5. 硬件替换与闭环(FRU→RMA→回归)

  • 6. 典型现象→快速判断对照表

  • 7. 命令与工具速查(Linux/Windows/BMC)

  • 8. 常见坑与对策(14 条)

  • 9. 闲叔小结


0. 入场三件事:安全/隔离/取证

  • 人身与电气安全:断电/防静电/两人运行;机柜供电 A/B 路确认。

  • 业务隔离:确认是否可下线或切换;标记设备,防止他人误操作。

  • 取证留痕:拍照(告警灯/线缆/板卡位置)、导出SEL/传感器、记录时间与环境(温湿度/功率)。


1. 不开机(上电失败/反复重启)

步骤

  1. 带外可达?ping bmc → 可达则用 IPMI/Redfish查电源/传感器;不可达检查PDU/电源线/PSU 指示灯

  2. PSU 与配电:确认 1+1/N+1冗余在;两只 PSU 不要插同一 PDU;看PSU LED/告警

  3. 前面板/主板跳线:电源开关/入侵开关是否异常;检查Power Restore Policy

  4. 最小化启动:拔掉所有 PCIe/盘,只留CPU+1 条/槽内存(按指南位)+板载显卡/管理口

posted @ 2025-09-04 21:17  wzzkaifa  阅读(8)  评论(0)    收藏  举报