故障复盘报告模版
基础信息
报告名称: <日期><动作><影响>
故障简述:
影响范围及计算:
资损:
故障恢复指标
故障发生时间点
故障发现时间点
故障止损时间点
故障恢复时间点
故障发现及处置
发现方式:
报警级别
报警消息截图
故障处置群:
故障完整过程
发生时间
告警时间
发现时间
定位时间
止损时间
恢复时间
通告时间
故障原因及分析
触发原因:
根因:
变更问题原因:
变更前: 非窗口期上线,未审批,未明确变更内容,未明确checklist,无回滚方案
变更中: 未分级发布,分级发布间隔太短,未通知上下游,变更过程无检查
变更后: 变更后未检查,变更完成未通知
是否是低级故障:
低级类型:
违反稳定性红线规范
人为误操作
同一个服务相同原因发生三次故障
其他
是否QA测试:
测试是否发现问题:
问题检查表&todo项
问题项 | 问题解释 | todo项(根据问题演化而来) |
为什么会发生这样的故障 | 之前都是稳定运行的,怎么就突然故障了? | |
为什么没能及时发现? | 故障开始点-故障发现时间点 能不能更短? | |
为什么没能及时止损? | 故障发现点-故障有效止损时间点 能不能更短 | |
为什么故障处理时间比较长? | 故障开始止损-止损完成时间点 能不能更短 | |
如何避免类似问题重复发生? | ||
为什么没有其他方法止损? |
故障开始止损-止损完成时间点 能不能更短, 没有其他的止损一起并行吗? |
|
流程上有哪些需要改进? | 规范。流程、人。 |
故障责任
事故级别
SLA影响时间
责任方,责任权重
留言板
posted on 2025-07-30 16:02 LinuxPanda 阅读(56) 评论(0) 收藏 举报