给平安保险再上保险容灾在保险

来源:岁月联盟 作者:雪岩 时间:2013-06-09
     保险为我们可能遇到的各种灾难提供保障,但是,保险数据遇到了灾难该怎么办?特别是实施了数据大集中之后,潜在的风险对数据的威胁更大。如何给保险数据上一个保险是迫切需要的。
  
  从数据到应用
  
  平安保险在2003年基本完成了容灾系统的IT基础架构建设,包括建立了数据级容灾系统的基础架构,在上海备份中心建立了重要生产系统的数据复制环境,采用Oracle的DataGuard技术,实现了生产系统数据的实时复制,全国130余个生产数据库实施了数据级容灾。平安保险的数据级的容灾环境,已经实现如下目标:各系统平均数据丢失时间小于8小时,最大数据丢失时间小于24小时;支持本地生产系统的集群切换,数据复制的启动、停止、异常中断等不影响生产系统的正常运行,数据复制异常时能够通过Openview报警。
  平安保险领导层认识到,虽然已经建立了基本的容灾系统,具备了基本的容灾能力,但缺乏相应的综合灾难恢复计划,也没有针对灾难发生后的应对、决策、详细的灾难恢复步骤。一旦灾难发生,如何能够最大程度地减少损失,以最快的速度恢复系统运行,保护公司利益?2004年,平安保险启动业务系统容灾项目。该项目完成后,保证在灾难发生后规定时间范围内,上海灾备中心恢复关键业务系统的应用,使业务正常运作。
  
  在实践中选择厂商
  
  容灾系统和一般的业务系统有一个巨大差别:业务系统是每天工作必不可少的一部分,而容灾系统是为灾难准备的。灾难当然不是经常有,容灾系统建设的问题也就不容易发现。选择一个好的厂商,就放心了一半。
  惠普凭借成熟的BCP/DRP方法论,对平安保险IT架构和灾难恢复需求的了解,以及经验丰富的实施顾问,被平安保险选为平安灾难恢复计划(DRP)咨询项目合作伙伴。
  在为平安保险设计的方案中,涵盖高可用容灾系统平台的软硬件技术介绍、日常运作流程设计、突发事件管理、大型灾难的应对计划与策略、业务持续性管理团队建设和咨询等诸多方面的服务,可以帮助客户从技术、流程、人员三方面提高业务持续能力,保证企业IT 系统的正常运作和发展。
  平安保险从三个方面进行业务连续系统的建设:
  1. 通过多种技术手段实现关键业务远程灾难恢复,包括数据的远程复制、关键业务应用程序的紧急切换、关键业务的连续运行;
  2. 建立一个业务连续团队,进行人员选择,制定相关的角色和职能,做相关技术和流程培训等,使得有合格的人员和严格的制度,保证业务连续系统作用的有效发挥;
  3. 建立一套行之有效的业务连续计划,包括多个关键流程,如:灾难信息通知流程、灾难界定与决策流程、紧急应对和业务切换流程、紧急运行管理流程、系统恢复和业务回切流程等,这些将使得业务连续成为有章可循、易于操作的系统。
  平安保险采用的业务连续/ 容灾解决方案是端到端的整体解决方案,不但涵盖从服务器、存储系统、光纤网络互连设备到软件、数据库等全部IT相关范围,还包含了人员组织建设、人员培训与容灾知识普及、灾难恢复流程设计和演练等内容,同时平安保险还重视实施完成之后的持续关注,并可根据业务的实际需要,定期对容灾系统进行灾难演习,防患于未然。
  
  只建项目是不够的
  
  DPR项目在2004年6月启动,2005年1月21日验收。项目内容包括灾难风险评估、业务影响分析、灾难恢复策略设计、详细方案设计、容灾方案实施、灾难恢复计划开发以及最后的灾难恢复测试和演习等。
  平安保险拥有众多应用系统,总数超过100个,其中关键业务系统超过50个。这导致业务影响分析和灾难恢复计划设计复杂。业务影响分析阶段,通过对30个业务部门的68位员工的访谈和协商,与业务部门一起制定了各个业务系统的灾难恢复时间指标(RTO)和灾难恢复数据指标(RPO),最终RTO和RPO得到业务和IT部门双方的认可。在灾难恢复计划开发阶段,克服了系统多、时间紧、人手紧缺的困难,惠普技术人员和平安项目组一起按时完成了DRP的开发。
  容灾系统是建设好了,该怎样检验容灾系统是否达到预定的目标呢?容灾演习是对容灾项目建设是否成功的检验标准,也是对容灾维护管理流程和文档检测的重要手段。通过演习及时发现问题,并确保各相关部门的配合和人员的操作准确无误。2004年11月13和11月27日,平安保险举行了两次整合测试,在2004年12月11日~12月12日举行了第一次灾难恢复演习。灾难恢复演习中,平安参加人员超过100个,其中IT人员超过70个,用户测试人员超过30个,整个演习超过28个小时,顺利实现了业务系统从华南(深圳)数据中心切换到华东(上海)数据中心。演习的成功举行,标志着平安在全国各大保险公司中率先完成IT灾难恢复计划。