FMEA排除架构错误
FMEA 故障模式与影响分析 --验证架构分析后得到的架构方案
failure 假设某些组件或模块发生故障
mode 故障发生的方式、可能性
effect 故障的影响
analysis 分析系统的可能反应,以及如何改进
FMEA技巧
给出初始的架构设计图,一般是系统架构图 部署架构图
假设架构中某个role发生故障,然后分析此故障对系统功能造成的影响
根据分析结果,判断架构是否需要优化
业务功能 从用户角度划分业务功能点
故障模式 系统会出现什么样的故障,包括故障点和故障形势
故障模式不需要给出真正的故障原因 只需要假设某种故障现象即可
故障影响
故障点偶尔不可用,故障点完全不可用,部分用户不可用,功能点出错等
严重程度 从业务角度看故障的影响程度
功能点重要程度*故障影响范围*功能点受损程度(致命 高中低无)
故障发生的原因
故障现象相同,对业务的影响相同;故障原因不同,发生概率、检测手段、处理措施不同
某个故障原因发生的概率
1、硬件随时间风险变大 2、开源系统 版本、成熟度 3、自研系统
风险等级
严重程度*故障概率
已有措施
检测告警、容错、自恢复
规避措施
降低概率或降低影响
解决措施
解决措施优先级高于规避措施
后续规划
排序、按照风险等级排序
制定改进方案
需要考虑成本
FEMA落地的技巧
抓住核心 优先分析核心场景
分工合作 安排部分工作给其他人
适可而止 严重程度高的必须解决,中的做好检测和告警