云计算之路-阿里云上:10:28-10:51云盾清洗以及IP切换引发的主站访问故障

大家好,非常抱歉!今天10:28-10:51期间由于阿里云云盾流量清洗,以及切换IP后负载均衡的带宽跑满,影响了主站的正常访问,给您造成了很大的麻烦,请您谅解!

故障的过程是这样的:

10:28,我们收到了来自阿里云云盾的通知短信:

【阿里云】尊敬的用户:您的 IP 遭受外部流量攻击,已启动免费清洗服务...

以前也收到过几次这样的通知短信,根据以往的经验,这样的云盾流量清洗不会影响网站的正常访问。

可是今天收到短信后,突然发现主站www.cnblogs.com不能访问了(当时我们是通过上海电信的网络访问的)。当时很着急,立即上云盾控制台查看情况,攻击流量在云盾的承受范围内,不是流量攻击造成的不能访问。怀疑问题与云盾的流量清洗有关。所以,一边联系阿里云客服,一边进行了DNS解析切换,将流量切换到了另外一台SLB(阿里云负载均衡)上。

但是在切换时,我们忘记了另外一台SLB上设置了带宽限制。开始的时候由于DNS解析没完全生效,没察觉带宽问题,等后来DNS解析逐渐生效后,由于带宽跑满造成主站访问速度慢,等我们发现后才恢复正常。(这是我们在这次处理故障过程中的疏忽,我们会认真检讨,吸取教训)

之后,原来的SLB在停止流量清洗之后,也恢复了正常。流量清洗期间的不能访问可能是云盾清洗期间误屏蔽了一些地区的IP,这个有待阿里云的进一步分析。

在这次故障中,我们深刻体会到在面对紧急问题时保持沉着冷静的心态是多么重要,否则很容易在处理现有问题过程中制造出新的问题。

posted @ 2015-06-01 14:08  博客园团队  阅读(2769)  评论(4编辑  收藏  举报