2023-11-12阿里云故障复盘

2023年11月12日下午17:44分,阿里云产品控制台访问及API调用出现使用异常
17:50 阿里云已确认故障原因与某个底层服务组件有关,工程师正在紧急处理中。
18:54 经过工程师处理,杭州、北京等地域控制台及API服务已恢复,其他地域控制台服务逐步恢复中。
19:20 工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复。
19:43 异常管控服务组件均已完成重启,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复。
20:12 北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。
21:11 受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。
这次的故障几乎影响了阿里云的全部产品以及地区,根据up主极海的猜测来看应该是RAM(授权服务)崩溃导致的,由于其他上层应用对于RAM服务都是强依赖,所以导致了RAM服务崩溃引起的全方位崩溃。
分析视频: https://www.bilibili.com/video/BV1mH4y1B7Sm/?share_source=copy_web&vd_source=cee0c756f49a6d9bab6e9167753f9dc4
阿里云公告:https://help.aliyun.com/noticelist/articleid/1064981333.html?spm=a2c4g.789004748.n2.7.15381865wcrmf1

posted @ 2023-11-14 17:26  autunomy  阅读(332)  评论(0)    收藏  举报