记一次系统异常重启排错过程(centos7 --不定期自动重启)

1. last reboot查看重启时间

2. messages查看日志,发现没有reboot或sutdown记录

3. 查看重启时间点附近的其它日志,查看secure.log日志,排查ssh登录情况,查看sudo.log日志,查看哪些用户使用过sudo命令。

4.通过上面排查都没有发现异常,随即联系硬件工程师帮忙协助排查,收集硬件日志,也没发现异常。

5. 收集kdump日志,进一步深度排查系统原因。

6. 通过查看kdump日志(/app/crash目录),发现如下红色字字体行,判断与linux系统或固件有关。

[ 1.228455] ACPI: Added _OSI(Module Device)
[ 1.228456] ACPI: Added _OSI(Processor Device)
[ 1.228458] ACPI: Added _OSI(3.0 _SCP Extensions)
[ 1.228459] ACPI: Added _OSI(Processor Aggregator Device)
[ 1.234275] ACPI: EC: Look up EC in DSDT
[ 1.252150] [Firmware Bug]: ACPI: BIOS _OSI(Linux) query ignored
[ 1.517287] ACPI: Dynamic OEM Table Load:
[ 1.517290] ACPI: OEM1 (null) 15174 (v02 INTEL CPU EIST 00003000 INTL 20140828)

7. 计划升级操作系统内核、如果不能解决则进一步升级BMC bios。

8. 升级操作系统内核至5.10.7-1.el7.elrepo.x86_64版本。

 

截止今天已经没有再发现重启记录(之前最长重启间隔为4天,目前已经5天时间),算是基本解决,如果后续还有重启记录将会进行升级BMC及bios,后续将继续更新。

 

posted @ 2021-01-20 09:34  symantec-centos  阅读(4140)  评论(0)    收藏  举报