Linux 主机宕机分析
1. 硬件层面分析
物理机宕机时,首先检查 硬件故障,因为这类问题往往最难察觉。
(1)查看硬件日志
如果服务器支持 IPMI(如 DELL iDRAC, HP iLO, Lenovo XClarity),可以通过远程管理接口获取故障日志。
在 Linux 上,可以使用 ipmitool:
yum install -y ipmitool ipmitool sel list # 查看系统事件日志 ipmitool sensor # 查看温度、电压等传感器状态
如果出现 过热、电源故障、内存 ECC 错误,可能是硬件问题。
(2)检测硬盘故障
硬盘问题可能导致系统宕机,使用 smartctl 检查磁盘健康状况:
smartctl -a /dev/sda # 查看 SMART 信息 smartctl -t short /dev/sda # 运行短测试 smartctl -t long /dev/sda # 运行详细测试
如果发现 Reallocated Sectors Count 或 Pending Sectors 过高,说明磁盘即将损坏。
(3)检查内存
物理机的 内存故障 可能导致 随机宕机、内核 Panic、Segfault,建议使用 memtest86+ 进行内存测试:

浙公网安备 33010602011771号