云计算之路-阿里云上:14:20-14:55博客后台2台服务器都CPU 100%引发的故障

2017年6月20日更新:今天我们最终发现,CPU 100%问题是博客后台程序所引用的开源组件 HtmlSanitizer 在处理特定html字符串时引起的,升级至最新版3.4.156可解决这个问题。

非常抱歉,今天下午14:20-14:55期间,由于同一个负载均衡中的2台服务器都出现CPU 100%问题,造成博客后台无法正常访问,由此给您带来了很大很大的麻烦,请您谅解。

博客后台是CPU消耗很低的应用,这2台服务器通常CPU占用在5%左右,之前从来没有出现CPU 100%的问题(所以连云监控都没添加CPU监控报警)。这次问题很突然,我们发现问题后,远程连接不上服务器,只能通过阿里云控制台重启服务器,重启后立马恢复正常。

对于问题的具体原因,目前还没找到,我们正在进一步排查,也反馈给了阿里云,阿里云也在排查。

对于这次故障,我们会吸取教训,采取改进措施:

1)加强监控

2)采用 Docker 进行容器化部署:在更多服务器上用更多容器运行,避免2台服务器同时出问题引发故障,但这要等我们完成博客后台向 ASP.NET Core 的迁移。

posted @ 2017-06-09 15:52  博客园团队  阅读(3902)  评论(45编辑  收藏  举报