【故障公告】阿里云抢占式实例服务器被自动释放引发的故障

非常抱歉,由于一台使用阿里云抢占式实例的缓存服务器被自动释放,造成今天 10:20-11:30 左右网站无法正常访问,由此给您带来很大的麻烦,恳请您的谅解。

这台阿里云抢占式实例服务器的出价方式是“使用自动出价”,之前我们使用这种出价方式的阿里云抢占式实例从来没有被自动释放过。

而购买页面的提示“使用自动出价-以按量付费实例规格价格为上限”,让我们误以为自动出价的抢占式实例不会被释放,最多只会以按量付费实例的价格收费。

昨天下午 14:50 左右,收到了阿里云的通知短信与邮件:

【阿里云】尊敬的用户,您好!您的抢占式实例: i-bp1938t1plpkzggc5jd1(couchbase)  因库存变化,  即将进入释放状态

您好!您的抢占式实例: i-bp1938t1plpkzggc5jd1已标记进入即将进入释放状态,5分钟后会自动释放。

建议您使用关机脚本来保存您的应用数据。谢谢!

阿里云计算有限公司

收到通知时觉得很奇怪,自动出价的服务器怎么会被释放?难道是阿里云的误通知?

为了以防万一,当时准备换服务器,但过了5分钟后发现那台服务器还在,没被释放,于是就真以为是阿里云的误通知。

。。。

今天出故障时发现数据库服务器压力非常大,在排查过程中突然想到昨天阿里云释放服务器的通知,赶紧查看,汗,那台服务器没了。

原来阿里云在后来的某个时间将那台服务器“偷偷”释放了(释放时没有发任何通知),而且这样的释放不会触发阿里云云监控的报警,再加上我们缺少对缓存服务器的专门监控,结果在服务器被释放后我们没有及时发现,造成今天在访问高峰时数据库服务器压力过大,从而引发故障。

我们会吸取这次教训,改进服务器的部署。

后来,向阿里云提交工单后才知道"当市场价格高于您的出价或者资源供需关系变化时,实例会被自动释放"也适用于“使用自动出价”的方式,自动出价不会出现“市场价格高于您的出价”的情况,但会出现“资源供需关系变化”的情况(比如阿里云库存服务器不够用),这时阿里云就会在已购买的竞价服务器中“抢占”一些据为己有。

通过这次教训也终于明白了为什么阿里云把当初的“竞价实例”改名为“抢占式实例”。

posted @ 2019-04-04 14:30  博客园团队  阅读(5715)  评论(20编辑  收藏  举报