证券基金行业本地异地容灾备份查询一体化方案

证券行业灾备需求

证券集中交易系统的建设,对集中交易系统的安全性、可靠性和业务连续性等方面提出了越来越高的要求,因为该系统是证券业务得以正常运转的前提和保证。证券交易系统是一种典型的“任务关键型”应用系统,它的运行涉及数以百亿计的资金、涉及大量的客户,并且是一种实时交易行为,因此系统的安全与稳定尤为重要。

 

因此,证券集中交易系统的安全灾备系统在需求上相比于其他行业,存在非常明显的特征,如下:

 

1、可靠性要求非常高:证券集中交易系统的运行涉及数以百亿计的资金、涉及大量的客户,所以必需保证系统数据复制的极高的可靠性,必需做到数据的准确性。 

 

 2、要求延迟尽量小:因为大量的实时交易只有被及时地复制到容灾系统上以后,才具有抵御生产系统上各种风险的能力,因此证券行业在复制的实时性上必需要求做到秒级的延迟,并且尽可能地缩短。 

 

3、带宽有限:对于大量的证券用户来说,由于其将租用电信线路,因此线路的带宽成本将是灾备系统运行的重要变动费用之一,并且是一笔非常大的费用。(证券行业不可能像电信企业那样随便使用带宽。)在目前来看,各大证券行业的带宽大都只能确保在2M左右,如何在如此有限的带宽上实现实时复制、减少数据延迟、加快数据同步,将是非常重要的。 

 

4、交易查询分离:为了提高证券集中交易系统的高峰期业务处理能力,提高系统查询响应速度,提高客户服务质量,证券业普遍要求将查询与交易分离,这样能够获得更高的性能价格比。 

证券行业为什么需要灾备一体化解决方案

系统故障原因分析

根据证券行业相关系统中提出的运营支撑系统主要面临的风险有:

  • 计划内的风险。例如:应用软件等的升级、备份/恢复/归档、数据中心迁移、整合、测试、容灾演习等;
  • 计划外的风险。例如:系统处理能力下降、人为操作故障(包括:错误删除文件数据,造成不可恢复等)、错误执行程序或命令、错误执行程序或命令造成的系统瘫痪和系统软硬件故障、生产地点的灾难等。

业界的研究表明,在以上各种导致系统下线的原因中,各种原因的比例约为:

  • 40%的系统灾难是由于操作人员操作失误而引起
  • 40%的系统灾难是由于应用软件的问题所引起
  • 20%的系统灾难是由于设备的物理原因所引起,如硬件失效、掉电、自然灾害等

由此可见,系统计划外风险的主要是由于人为操作失误和应用软件问题造成的;而真正由于自然灾难带来的风险几率非常小。

 

从上分析可知,系统下线的原因主要可分为两种:逻辑错误和物理错误。逻辑错误和物理错误的防范机制也应该不同,主要的方法有如下两种:定时拷贝和连续复制。


备份技术(Point-in-time Copy):

备份技术(Point-in-time Copy)是对业务运行过程中某一时刻的生产数据的保护。该保护在业务正常运行时生成,主要预防业务因生产数据的逻辑故障而造成的停顿;当生产数据因人为误操作或病毒破坏而损坏时,可以利用该定点拷贝将业务状态恢复到损坏发生时刻的正常业务状态。在具体的业务恢复过程中,辅以其他手段,可补充自定点拷贝生成时刻起至业务中断时这一段时间业务运行新产生的生产数据。

 

从上述原因分析可以看出,在众多灾难产生的原因中,所有的逻辑错误都需要定时拷贝机制来实现。可见,定时拷贝在数据安全性上的重要性。


容灾技术:

容灾技术是对业务状态数据进行持续不断的复制。主要是为了预防业务系统遭遇灾难(如:停电、火灾等)而造成物理错误时恢复应用进程。当灾难发生时,连续复制过程也终止;在进行业务恢复时利用复制结果可以恢复停机现场的生产数据,从而恢复业务。

 

实际上,业务系统不能运行的主要原因也由这两部分组成,因此在数据保护方面也需要采用容灾+备份相结合的原则。 

 

DSG在证券行业的灾备一体化应用案例

DSG公司针对证券业界的数据保护需求,推出了两类数据保护产品:容灾产品(RealSync)和备份产品(SnapAssure)。

 

容灾产品(RealSync):该产品是通过交易实时同步的方式实现数据备份,其目的是保护证券系统的业务连续性。当生产系统出现硬件故障、数据库故障、以及环境故障等而不能正常提供服务时,可在备份系统上快速接管,以确保业务的连续性。

 

备份产品(SnapAssure):该产品是每天进行一次数据备份(日常作归档日志的备份),其目的是保护证券系统的数据安全性。当生产系统出现因人为误操作、应用程序错误、或者其他故障导致数据丢失时,可从备份系统上找回这些数据,而且可以找回一段时间以前的数据。

 

在某证券公司,实现了SnapAssure+RealSync的一体化系统保护架构:

集中交易系统由两台UNIX服务器组成Oracle RAC结构。数据量为100GB左右,每天产生的Archive Log量约在10G左右。

 

采用DSG SnapAssure+RealSync灾备一体化的模式,系统建设了本地备份系统、本地容灾系统和异地容灾系统三个部分。

1、本地容灾系统

采用DSG RealSync实时复制技术将交易系统的数据实时同步到本地容灾系统上。本地服务器上的数据延迟一般可控制在3秒左右。

 

本地容灾系统用于集中交易系统因为硬件的问题,例如:服务器无法启动、磁盘阵列无法启动、数据库的性能问题、或者数据库无法启动时,快速接管集中交易业务。

 

同时由于本地容灾系统的数据库处于OPEN状态,所以证券公司也将历史数据的查询迁移到本地容灾系统上来做。


2、本地备份系统:

本地备份系统采用DSG SnapAssure产品将集中交易的数据备份过来,形成2周的备份版本。通过这些备份版本,可以将数据恢复到14天内的任意一个时间点。

 

该系统主要用于防范人为误操作造成的数据破坏,比如Truncate Table、Drop Table等造成的数据破坏,尤其是历史数据的破坏,这时需要利用本地备份系统来恢复丢失的数据。 


3、异地容灾系统

采用DSG RealSync实时复制技术将交易系统的数据实时同步到异地容灾系统上。网络带宽为2Mbps。

 

异地容灾系统用于本地发生电力故障、网络故障、火灾、地震以及其他环境故障时,业务可以在短期内快速接管至异地的容灾系统上,以确保业务不间断。

 

DSG在证券行业的其他应用案例

广发银行、中国期货保证金监控中心、太平洋保险集团、中国金融期货交易所、华夏基金、易方达基金、招商基金、南方基金、鲁证期货、中银期货、东吴期货、国泰君安期货、中大期货、银河证券、民族证券、宏源证券、新时代证券、上海证券、远东证券、太平洋证券、东兴证券、万联证券、金元证券、信达证券、江南证券、华泰证券、南京证券、信泰证券、东吴证券、长江证券、国联证券、东海证券、西南证券、山西证券、金通证券、中原证券、财达证券、西部证券、国盛证券、国海证券、华福证券、恒泰证券、湘财证券、华鑫证券、财富证券、中天证券、财通证券、中投证券…

posted @ 2010-06-03 22:47  DSG 孙凌  阅读(693)  评论(0编辑  收藏  举报