信息系统建设容灾系统如何选择容灾方案
摘要:
1.数据丢失的危害 在信息化进程快速发展的今天,信息已经成为企业的生命源泉,如何保证重要业务数据的安全、提高信息可靠性和可用性成为企业信息化工作急待解决的问题。对于电信、金融、民航等这样一些特殊行业,其数据不仅是企业发展的资源,也是保护用户和
1.数据丢失的危害
在信息化进程快速发展的今天,信息已经成为企业的生命源泉,如何保证重要业务数据的安全、提高信息可靠性和可用性成为企业信息化工作急待解决的问题。对于电信、金融、民航等这样一些特殊行业,其数据不仅是企业发展的资源,也是保护用户和企业利益的关键依据,保证其数据的可用性至关重要。
信息系统面临的灾难包括系统硬件故障、网络故障、火灾地震等。灾难的出现,可能导致生产停顿、客户满意度降低,企业的竞争力会因此大为下降。容灾技术就是要提供一种方法,使计算机系统在遭受自然或人为破坏等不可抗拒的灾难和意外时,能够及时恢复系统的正常运行,使信息资源可以持续访问。
据统计,在银行业和电信业中,每次计算机系统宕机导致的损失平均为 1000 千万美元,这还不包括对公司声誉的影响所导致的无形资产的损失。此外,据美国劳工局统计,在曾遭受过重大数据丢失现象的公司中,93%的公司在 5 年内破产;在曾经历过大型灾难或长时间系统停运的公司中,有 2/5 的公司再也未恢复运行,而在其余的公司中,有 1/3 的公司在 2 年内破产,这一严峻的事实表明,企业信息系统规划中必须纳入容灾系统解决方案。
2 数据丢失原因分析
发生数据丢失的原因,大致可划分为 4 类:第 1 类是计算机软硬件故障造成的数据丢失,这类现象发生的可能性最大,约占数据丢失事故的 60%;第 2 类是人为操作错误所引发的数据丢失,发生概率仅次于第 1 种原因,约占 30%。这类故障对管理较严、人员素质较高的企业,仅偶尔发生,但对管理较松、人员培训不足的企业,会经常发生。可以通过提高系统自动化运行水平、做好本地数据冷备份、制定严格的管理规范等措施来降低其发生概率;第 3 类是由于病毒或黑客的攻击所造成的数据损失,约占 7%;第 4 类是:龙卷风、地震、洪水、火灾等自然灾害所产生的数据损失,约占 3%,这类灾难是偶然的,同时也是损失程度最大的。
目前,企业进行数据保护的方法一般是利用光盘塔或磁带机进行离线数据备份,当系统出现故障时,可以把数据恢复到某一天(上次备份日),但是,离线备份容易导致系统瘫痪,而且恢复数据需要一个较长的停机过程,如果恢复数据所需的时间长于系统允许的停机时间时,必须采取其它备份方法,如在线备份,常用的是双机热备。
无论是离线备份还是在线备份,当面对火灾、地震、水灾、爆炸等严重灾难时,应用系统将无法恢复正常运行,对于某些可靠性要求极高、不能中断运行的关键业务(如电信的计费等),将造成无法挽回的重大损失。
3 容灾技术概述
容灾是为了将企业的关键数据资料完好保存,以便在信息系统和数据遭受意外破坏时,能快速恢复数据处理,保障业务的连续性,最大程度地降低企业的损失。
容灾技术的基本原理就是数据备份。数据备份是指为防止由系统故障所导致的数据丢失,而将全部或部分数据从数据生产中心的主机系统存储设备复制到其它的存储介质的过程。随着企业数据的不断增加和可用性要求的不断提高,传统的离线、在线备份根本无法满足需求。要想达到抵御灾难的目的,必须选用专门的软、硬件设施,制定相应的容灾方案。
容灾的核心是备份,但不同于一般意义上的数据备份,因为通常的备份存储系统总是与工作系统处于同一位置,而容灾备份是通过在异地建立和维护一个备份存储系统,利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。容灾与备份之间的根本区别在于容灾不仅要保证企业数据的安全可靠,同时要保证业务的连续性。
容灾系统根据对灾难的抵抗程度,可划分为数据容灾和应用容灾。
数据容灾是指建立一个异地的备份数据系统,该系统可以对数据生产中心系统的关键应用数据实时复制,当出现灾难时,异地备份数据系统保存有一份可用的关键业务数据,该数据可以是本地数据的完全实时复制,也可以比本地数据略微滞后。数据容灾的目的是保证企业关键数据的完整性和可用性。
应用容灾比数据容灾层次更高,它要求在异地建立一套完整的、与本地数据系统相当的备份应用系统(可以同本地应用系统互为备份,也可与本地应用系统共同工作),在灾难出现后,远程应用系统可以迅速接替本地应用系统的业务运行。应用容灾的目标是保障业务的连续运行,向用户提供透明的不间断服务。
数据容灾是容灾系统的基本要求,而应用容灾是容灾系统建设目标,应用容灾必须建立在数据容灾的基础之上,通过整合应用系统、网络系统等各种资源来实现。
4 容灾系统的设计方案
4.1 异地数据复制技术
容灾系统可采用不同技术实现,目前大多数容灾方案都是在异地建立备份中心,将主系统的数据实时地复制到备份中心,因此,无论对于数据容灾还是应用容灾,其主要技术都是异地之间的数据复制技术。数据复制技术对数据的一致性、可靠性及系统的应变能力具有举足轻重的作用。数据复制技术主要有同步复制、异步复制 2 种。
同步数据复制是将本地生产的数据以完全同步的方式复制到异地,每一本地 I/O 交易均需等待远程复制完成后释放。使用同步复制技术的容灾系统具有更高的安全可靠性,因为同步复制实时性强,在任何时候发生数据更新时,备份中心存储系统都会同时更新数据,灾难发生时,远端数据与本地数据完全同步。由于数据复制过程中存在时延,同步复制方案只在较短的距离内适用(一般是 10 - 50 公里),超出这个距离时,由于每个 I/O 的响应时间过长,将不再有实际应用价值。同时,这种复制技术还受到带宽因素的制约,若远程的 I/O 带宽较窄时,会显著地拖慢主数据中心的 I/O,影响系统性能。
异步数据复制则是指将本地生产数据以后台同步的方式复制到异地,每一本地 I/O 交易均正常释放,无需等待远程复制的完成。本地数据的远程复制均在后台的日志区进行,因此,它具有不影响本地系统的正常运行、传输距离长、对网络带宽要求低等优点,但备份中心数据比本地数据略有滞后,即当灾难发生时,可能会发生少量数据丢失。在异步复制环境中,必须采取适当措施确保数据的一致性。
4.2 容灾系统方案分析
目前,容灾系统的设计方案可分为 4 大类型,下面详细说明各容灾方案的特点。
4.2.1 基于应用程序的远程数据复制方案
这种技术是通过修改应用程序或利用中间件产品,使前端平台在向主数据中心服务器发送生产数据时,同时向备份中心发送交易数据,主数据中心处理交易数据并返回处理结果,而备份中心只处理交易数据不返回结果,只有当主数据中心无法正常工作时,才由备份中心服务器接替主服务器向前台返回处理结果。这种方案通过软件实现数据同步并保证一致性,由于是由应用程序驱动的,因此复制独立于存储厂商,主数据中心存储系统与备份中心存储系统可以不一致,有利于保护现有的硬件投资。
基于应用程序的远程数据复制方案需要额外的服务器资源,通常需要将内存和 CPU 资源增加 25%来满足解决方案的需要,此外,这类解决方案一般不能很好地扩展。
4.2.2 基于数据库的复制方案
目前,多种数据库产品都提供 Standby(备用)数据库功能,容灾系统可以利用这种功能实现数据远程备份,称为数据库级容灾。
基于数据库的复制方案的基本原理是:在与主系统完全一致的硬件和操作系统平台上建立备份数据库系统,在主系统正常工作的同时,将主系统产生的归档日志文件 (ArchivedLog) 不断地传送到备份数据库系统,并且利用这些日志文件在备份数据库系统上连续进行恢复 (Recover) 操作,以保持备份系统与主系统的数据的一致性。
在基于数据库的方式下,数据的复制以日志文件(由多个事务组成)为单位进行,备份站点数据库在任何情况下,接收的数据都是完整的,因为事务是数据库确认操作成功的最小
单位,一个事务要么完整提交,要么失败回滚,所以,以这种方式同步数据,保证了数据的可用性。
例如,ORACLE9i 数据库 Data Guard 模块就提供一种基于重做日志的复制模式,Data Guard 提供了“零数据丢失模式(Zero-Loss Mode)”,可以在主系统生成日志文件的同时通过网络将日志文件同步写到远程的备份系统中,完全保证主备系统之间的数据一致,不需要借助任何特殊硬件设备即可保证完全不丢失数据。
数据库级容灾方案对主机的要求较高,因为这种方案会占用一定的主机资源,但这种数据复制方式对网络的要求不高,备份中心地点不受传输距离影响,将来的扩展或距离的变更会非常灵活。
4.2.3 基于操作系统级镜像软件的远程数据镜像方案
镜像是指在 2 个以上的磁盘或磁盘子系统上产生同一个数据的镜像视图的信息存储过程。通过主机上安装的操作系统级镜像软件进行远程数据镜像也可实现数据的容灾。
将物理设备划分为一个或多个逻辑磁盘卷能优化数据的存储规划和管理,逻辑磁盘卷可以理解为物理存储设备和操作系统之间增加的一个逻辑管理层。操作系统级镜像软件能将主系统卷上每次 I/O 操作的数据实时地复制到备份系统的相应卷上,从而实现两地数据的同步或准同步。
因为是由操作系统的镜像软件以逻辑卷为单位向磁盘进行写操作,所以这种方案支持所有数据库和文件系统,对应用程序透明。这种技术不需要两存储系统采用同样的存储设备,具有很大的灵活性,但复制占用一些主机的 CPU 资源,对主机的性能有一定的影响,同时要提供足够的通信带宽,才能保证远程复制的效率和数据一致性。
4.2.4 基于智能存储设备的复制方案
目前,所有高档的存储设备都在其控制器中嵌入了远程复制功能,这种设备也称为智能存储设备。基于智能存储设备的容灾方案是将 2 台这样的设备部署在异地,然后通过高速通信线路将 2 者连接起来,由磁盘控制器自动实现将数据复制到远端系统和同步,即智能存储系统将本系统的I/O 操作日志复制到远端存储系统并执行,以此保证数据的一致性。
与基于操作系统级镜像软件的远程数据镜像技术相比,采用基于智能存储设备的复制技术时,其磁盘镜像功能的处理负荷从主机转移到智能磁盘控制器,数据的远程复制对应用系统主机透明,不影响主机处理性能;同步方式采用FC(光纤通道协议),传输效率远高于 TCP/IP,可以很好地保证数据的一致性和完整性。此方案的另一特点是复制与操作系统无关,支持多种主机平台。
基于智能存储设备的复制方案是目前效果最好的容灾方案,但也是费用最高的一种方案,它要求两端的存储设备必须相同,主系统与备份系统的智能存储设备之间需要使用专用网络连接,且对线路带宽的要求通常也较高,当带宽不够时,只能做远程的异步复制。
基于操作系统级镜像软件的远程数据镜像容灾体系
基于智能存储设备的复制方案
5 容灾方案的选择
容灾是一个系统工程,需要多方面的考虑才能确保其成功。企业选择什么样的容灾方案,应主要考虑 3 个方面:①IT系统可能遭遇的风险隐患。如果是防范地震,可能要采用异地容灾;如是防范火灾、建筑物破坏,采用同城容灾即可;②对数据的保护程度。当灾难发生时,企业要保护 95%的数据,还是 100%的数据,100%的数据保护需采用同步复制,其它情况可选择异步数据复制;③系统可以承受的中断时间。对于电信、银行等高度数据依赖的机构,需要分钟级的容灾,应选择应用容灾方案;而对于有些企业,在几小时内恢复系统正常即可,可选择成本较低的数据容灾。
随着企业信息化水平的不断提高,越来越多的企业开始在构建企业基础结构时,把系统容灾问题考虑进来。容灾方案的供应厂商,也正在不断推出各种新的容灾技术。一个真正意义上的高可靠性容灾系统,必须能够解决各种导致计算机系统失效的意外情况,保护关键性业务应用在任何情况下的不间断运行。