扩大
缩小

故障复盘报告模版

基础信息

报告名称: <日期><动作><影响>

故障简述: 

影响范围及计算: 

资损: 

故障恢复指标

故障发生时间点

故障发现时间点

故障止损时间点

故障恢复时间点

故障发现及处置

发现方式: 

报警级别

报警消息截图

故障处置群: 

故障完整过程

发生时间

告警时间

发现时间

定位时间

止损时间

恢复时间

通告时间

故障原因及分析

触发原因: 

根因: 

变更问题原因: 

  变更前: 非窗口期上线,未审批,未明确变更内容,未明确checklist,无回滚方案

     变更中: 未分级发布,分级发布间隔太短,未通知上下游,变更过程无检查

  变更后: 变更后未检查,变更完成未通知

是否是低级故障: 

低级类型: 

  违反稳定性红线规范

  人为误操作

  同一个服务相同原因发生三次故障

  其他

是否QA测试: 

测试是否发现问题: 

 

问题检查表&todo项

问题项 问题解释 todo项(根据问题演化而来)
为什么会发生这样的故障 之前都是稳定运行的,怎么就突然故障了?  
为什么没能及时发现? 故障开始点-故障发现时间点 能不能更短?  
为什么没能及时止损? 故障发现点-故障有效止损时间点 能不能更短  
为什么故障处理时间比较长? 故障开始止损-止损完成时间点  能不能更短  
如何避免类似问题重复发生?    
为什么没有其他方法止损?

故障开始止损-止损完成时间点  能不能更短,

没有其他的止损一起并行吗?

 
流程上有哪些需要改进? 规范。流程、人。  

 

故障责任

事故级别

SLA影响时间

责任方,责任权重

留言板

 

posted on 2025-07-30 16:02  LinuxPanda  阅读(56)  评论(0)    收藏  举报

导航