上线事故处理流程

目的
整理一套上线事故的应急方案,快速止损。本文档不讨论架构的合理性、以及备用方案相关的事情。
针对核心服务,一旦有线上事故,负责人员高优处理
流程

  1. 快速定位问题,看服务监控、看服务日志、咨询运维人员等等,如果能5分钟内定位原因,走修复流程,否则,
  2. 快速回滚代码,这里容易有个经验主义作祟,觉得自己代码不会有问题,是不是其他的服务影响了?坚决执行回滚,最坏的情况就是没有修复问题罢了。
  3. 如果回滚代码不起作用,是不是底层依赖服务异常导致的问题?快速判断下服务问题的严重性。
    (1)服务瘫痪的情况 ,不能提供任何服务
    停止服务,可能因为上游服务大量请求导致下游雪崩;检验服务是否恢复,如果还不行,重启依赖的服务。
    (2) 其他情况,找原因...

还有很重要的一点,周知相关人员,协助一起排查问题。

posted on 2019-03-13 09:57  Ryanyanglibin  阅读(...)  评论(...编辑  收藏

导航