TS - 故障处理的两个关键指标

故障处理的关键指标

  • 使用故障树作为参考模型,把故障树的每个分支与错误的可能性相关联,通过可能性来指导诊断过程
  • 在灾难发生时,需要保持关键服务可用,也许可以容忍数据的丢失,但无法容忍不能提供服务
  • 使用2个关键参数对能够维持业务连续性的多个可选方案进行成本/收益分析

目标恢复时间(Recovery Time Objective,RTO)

  • 当灾难发生时,不能提供服务的最长容忍时间是多少?
  • 灾难发生后,从IT系统宕机导致业务停顿时刻开始,到IT系统恢复至可支持各部门运作、业务恢复运营之时
  • 例如,如果一种方案需要 10分钟来获取在另一个数据中心的备份,再需要5分钟来实例化新的服务器以便使用这些备份数据,则恢复时间目标为15分钟。
  • RTO时间越短越好,要求在更短的时间内恢复业务至可使用状态,同时也意味着需要更多成本的建设性投入。
  • 灾备项目一般是通过业务影响分析(Business Impact Analysis)的咨询服务,以访谈、问答和咨询的方式来最终确定 RTO 的目标值。

目标恢复点(Recovery Point Objective,RPO)

  • 当灾难发生时,对数据丢失的最长容忍时间(业务系统所能容忍的数据丢失量)是多少?
  • 如果每小时备份数据一次,则恢复点目标为1 小时,因为丢失的数据可能是自上一次备份后的累积量。
  • 零RPO,指的是已提交的数据都不会被丢失。单个RPO的范围通常为24小时、12小时、8小时、4小时。以秒为单位测量到接近零。
  • 与 RTO目标不同,RPO 目标的确定不是依赖于企业业务规模,而是取决于企业业务的性质和业务操作对数据的依赖程度,不同行业的企业可能会有较大差距。
  • 以咨询的方式,通过与各业务部门主管的交流,了解业务流程和IT应用的关系,以及通过回答问卷的方式,确定能够支持该企业核心业务的RPO目标值。
posted @ 2017-10-27 23:39  Anliven  阅读(342)  评论(0)    收藏  举报