CentOS 6.10 (Xeon x5670) 每次做满负荷的运算进行一段时间后都会宕机,MCE, 查不出原因,风扇、温度都正常,找不到任何调试信息。
偶然知道了Redhat 预制了Spectre 漏洞发现时厂家编写的microcode 更新 (https://www.tenable.com/plugins/nessus/106107)。早期的补丁有些问题,会造成难以调试的宕机,需要安装最新的microcode更新才能解决。。。 果断
yum install microcode_ctl
reboot
dmesg | grep microcode # OK!
给内核打上最新microcode 后再去跑计算,怎么跑都不怕了。