浪擎镜像为江西某银行实现双活容灾
摘要:
背景和需求 该银行由中国振乾坤投资集团在汤加投资创建。该行内部建设了完善的、基于Oracle的核心银行业务系统。Oracle FLEXCUBE银行系统是一个非常成熟的银行系统解决方案,其包括针对核心银行、零售银行、私人银行、公司银行、投资者服务和微金融的解决方
背景和需求
该银行由中国振乾坤投资集团在汤加投资创建。该行内部建设了完善的、基于Oracle的核心银行业务系统。Oracle FLEXCUBE银行系统是一个非常成熟的银行系统解决方案,其包括针对核心银行、零售银行、私人银行、公司银行、投资者服务和微金融的解决方案。1)Oracle FLEXCUBE非常有利于跨国银行的国际运营和操作。2)Oracle FLEXCUBE可帮助银行处理交易量非常大的零售业务。3)Oracle FLEXCUBE可提供虚拟银行的商业模型。4)Oracle FLEXCUBE还可帮助银行管理非常复杂的公司银行业务。其不但能处理非常复杂的贸易、金融、管理等,还能进行理财。Oracle FLEXCUBE可以帮助银行企业更精确针对不同客户定义银行产品,提升运作当中的灵活性,不断满足业务增长当中的需求,同时提供正确的信息提供给合适的人,以方便他们做出正确的决策。因此,核心IT系统的容灾整个企业的生产运行至关重要。
此前,该行采用定时备份、磁盘阵列RAID等措施保障业务系统的稳定性。但传统的备份手段无法满足公司业务连续性要求。2013年,该公司计划在公司不同机房间建设容灾系统,希望能够做到故障恢复目标RPO=0,即0数据丢失,故障恢复时间目标RTO=10分钟,即10分钟保证恢复故障。
浪擎与国内外众多同行厂商一起参与了这一项目的方案讨论,为该行的业务稳定性纷纷出谋划策。参与该项目的同行或产品有Oracle DataGuard、赛门铁克的StorageFoundation以及基于磁盘阵列复制的厂商。在了解客户需求后,根据浪擎在金融行业的最佳实践,浪擎工程师推荐浪擎的双活容灾方案。实施双活方案是对传统容灾概念的颠覆。传统的容灾方案有主有备,当生产服务器切换到容灾服务器时需要启动容灾数据库,而且面临容灾数据库不能成功启动的可能性,因此容灾面临较大风险,且存在较长的停机时间。在双活容灾方案中,容灾数据库处于在线运行状态,当生产服务器切换到容灾服务器时无需启动容灾数据库,业务系统只需连接容灾数据库即可。也就是说,可以实现RTO=0。
经过严格的、反复的测试、论证,该行最终接受了浪擎建立双活容灾的解决方案。生产机房与容灾机房通过网线直连。采用浪擎AgileMirror镜像软件,实现两侧机房业务系统的数据实时双活复制。2013年底,该行正式实施浪擎双活容灾方案,完全达到预期目标。灾备演练结果显示,故障切换时间远小于原先设定的时间,终端用户几乎感觉不到时延。
浪擎双活容灾
浪擎双活容灾的核心技术
浪擎AgileMirror镜像软件是实现双活容灾的关键。镜像系统是数据库级别的实时复制容灾产品,将生产端的业务数据实时复制到容灾端服务器上,当生产端业务系统发生故障时,容灾端的备用系统可以无需恢复直接接替生产端的业务系统使用,以保证业务连续运行。镜像系统支持SQLServer数据库、Oracle数据库、文件系统等应用系统的容灾;支持主流操作系统;支持单机、双机高可用等环境。
镜像系统为用户提供更高附加值的容灾产品。镜像系统的“容灾、容错、查询”三大核心功能,超越容灾这个技术范畴,能盘活用户的容灾投资,从而为用户带来增值的效益。查询功能为用户带来了一个极为实在的用处——创建备用数据库可以用来实现查询统计功能,分流主数据库的性能压力。
镜像系统不依赖DataGaurd、LogMinor、DBCC LOG等数据库自带的日志工具来实现数据复制,完全依靠自身研发的数据库实时捕获引擎ACA和数据组装两大核心技术来实现全量复制和实时增量复制。其实时增量复制过程为:生产端代理进程实时捕捉数据库在线或归档日志的变化数据,然后传输到容灾数据库端;容灾端的装载进程按照数据库标准格式组装这些变化数据块,然后提交给数据库的存储引擎保存到容灾数据库。
容灾端数据库处于在线运行状态,具备最高的可靠性,且用户可以随时查询业务数据来检验容灾结果。这是双活容灾最大的优势。
浪擎双活容灾,更高的可靠性和性价比
就综合复制技术原理与优缺点、投入成本、资源消耗、实施工作量、维护工作量等等方面来说,双活容灾和基于磁盘阵列复制的容灾是目前市场主要的容灾技术,占据很大的容灾市场份额,且应用于关键的、重要的应用系统。浪擎科技正是双活容灾的杰出代表,围绕应用事务复制这个核心,结合文件层的快速复制,采用直接的原始数据装载技术,克服了双活容灾复制速度慢的问题,是目前应用层里面做得最好的一种技术路线。基于磁盘阵列复制的容灾很难克服数据不一致的问题,需结合定时备份技术来防备此类问题的发生。
1)浪擎双活容灾与Oracle DataGuard容灾的对比分析:
比较项 |
浪擎双活容灾 |
DataGuard |
支持数据库 |
Oracle、SQLServer数据库,利于业务扩展 |
仅Oracle数据库 |
复制原理 |
复制Redo Log、归档日志 |
复制Redo Log、归档日志 |
目标数据库状态 |
能读、可查询 |
物理模式处于Mount状态,不能读 |
全量复制,是否需停止业务系统 |
无需停机 |
需要业务系统停机来实施 |
复制频率 |
实时,秒级别,延时极小 |
延时分钟级别 |
可使用功能 |
全量复制、增量复制、容错、监控、报警、切换、回切 |
仅增量复制 |
能否在复制期间校验容灾数据库 |
直接校验,无需停止复制 |
需停止复制 |
应用方式 |
支持一对一、一对多 |
仅支持一对一 |
传输是否压缩 |
支持压缩传输 |
不支持 |
数据容错功能 |
可恢复到任意时间点,恢复时间跨度需视存储空间而定 |
无容错功能 |
故障切换处理 |
与mCenter配合可一键切换,或延时自动切换 |
完全需要DBA来手工处理 |
数据回切(将备库数据恢复到主库) |
Web界面提供数据回切,一键回切 |
完全需要DBA来手工处理 |
报警 |
短信、邮件报警 |
无 |
投入成本与方案配备 |
较高。需添置容灾服务器,资金充足也可添置容灾存储。 |
高。需添置容灾服务器,资金充足也可添置容灾存储。 |
DataGuard是一款功能极其简易的数据库复制软件,仅实现了数据实时增量复制功能,不具备其他如全量复制、容错、监控、报警、切换、回切这些容灾功能。浪擎镜像系统是一款容灾功能极为全面、强大的数据库复制软件,具备全量复制、增量复制、容错、监控、报警、切换、回切这些容灾功能。
2)浪擎双活容灾与基于磁盘阵列复制的容灾的对比分析:
比较项 |
浪擎双活容灾 |
基于磁盘阵列复制的容灾 |
同步/异步 |
异步 |
同步/异步 |
复制对象 |
数据库事务 |
数据块 |
主机型复制 |
是 |
不是 |
数据库一致性和可靠性保障 |
严格确保可靠性 |
仅同步可以 |
容灾端数据库状态 |
在线运行 |
不在线 |
容灾过程 |
直接切换至容灾数据库 |
需启动容灾数据库,才能切换 |
能否在复制期间校验容灾数据库 |
直接校验 |
需分离或通过快照来校验一个过去状态的数据库 |
实施需停机 |
无需,自动化全量复制;全量和实时复制自动衔接 |
需要,直到拷贝全量结束 |
是否改变生产环境 |
无需 |
无需 |
支持复制的数据 |
仅支持主流数据库 |
不限 |
支持操作系统 |
支持Windows、Linux、AIX、HPUX、Solaris |
支持Windows、Linux、AIX、HPUX、Solaris |
是否集成容错 |
支持CDP |
通过快照,但很少 |
网络带宽要求 |
少,IP网络 |
高,需光纤直连或波分设备 |
适应场合 |
重要的业务系统 |
重要的业务系统 |
投入成本与方案配备 |
较高。需添置容灾服务器,资金充足也可添置容灾存储。 |
极高。需添置容灾服务器、容灾存储、专门的光纤网络。 |
从上面两表的技术原理、实施、维护、资源消耗、适应场合等对比分析来看,浪擎双活容灾均具备更加全面的功能、更加突出的容灾技术指标以及更高的经济性。因此,浪擎双活容灾方案是众多中、高端客户的首选容灾方案。