TS - 故障处理的两个关键指标
故障处理的关键指标
- 使用故障树作为参考模型,把故障树的每个分支与错误的可能性相关联,通过可能性来指导诊断过程
- 在灾难发生时,需要保持关键服务可用,也许可以容忍数据的丢失,但无法容忍不能提供服务
- 使用2个关键参数对能够维持业务连续性的多个可选方案进行成本/收益分析
目标恢复时间(Recovery Time Objective,RTO)
- 当灾难发生时,不能提供服务的最长容忍时间是多少?
- 灾难发生后,从IT系统宕机导致业务停顿时刻开始,到IT系统恢复至可支持各部门运作、业务恢复运营之时
- 例如,如果一种方案需要 10分钟来获取在另一个数据中心的备份,再需要5分钟来实例化新的服务器以便使用这些备份数据,则恢复时间目标为15分钟。
- RTO时间越短越好,要求在更短的时间内恢复业务至可使用状态,同时也意味着需要更多成本的建设性投入。
- 灾备项目一般是通过业务影响分析(Business Impact Analysis)的咨询服务,以访谈、问答和咨询的方式来最终确定 RTO 的目标值。
目标恢复点(Recovery Point Objective,RPO)
- 当灾难发生时,对数据丢失的最长容忍时间(业务系统所能容忍的数据丢失量)是多少?
- 如果每小时备份数据一次,则恢复点目标为1 小时,因为丢失的数据可能是自上一次备份后的累积量。
- 零RPO,指的是已提交的数据都不会被丢失。单个RPO的范围通常为24小时、12小时、8小时、4小时。以秒为单位测量到接近零。
- 与 RTO目标不同,RPO 目标的确定不是依赖于企业业务规模,而是取决于企业业务的性质和业务操作对数据的依赖程度,不同行业的企业可能会有较大差距。
- 以咨询的方式,通过与各业务部门主管的交流,了解业务流程和IT应用的关系,以及通过回答问卷的方式,确定能够支持该企业核心业务的RPO目标值。
行动是绝望的解药!
欢迎转载和引用,但请在明显处保留原文链接和原作者信息!
本博客内容多为个人工作与学习的记录,少数内容来自于网络并略有修改,已尽力标明原文链接和转载说明。如有冒犯,即刻删除!
以所舍,求所得,有所获,方所成。

浙公网安备 33010602011771号