从棋盘上的麦粒到大数据时代
 相信许多人都听过这样一个故事:舍罕王打算奖赏国际象棋的发明人——宰相西萨.班.达伊尔。国王问他想要什么,他对国王说:“陛下,请你在棋盘的第1个小格里,赏给我一粒麦子,在第2个小格里给2粒,第3个小格给4粒,以后每一小格都比前一小格加一倍,直到摆满全部的64格。您就把这些麦子赏给我吧!”国王觉得这要求太容易满足了,就命令给他这些麦粒。但是当人们搬来一袋一袋的麦子开始计数时,国王才发现:就是把全国甚至全世界的麦粒全拿来,也满足不了那位宰相的要求。事实上,人们估计,全世界两千年内生产的全部麦子可能也没有那么多!
 
笔者之所以想到这个故事,是认为故事里的情景和大数据时代颇有相似之处——当世界上第一台计算机诞生,从此信息和数据从纸张记录、人工计算演化到电子记录、机器计算时,就好像故事里棋盘上麦粒刚刚被摆放了两三格。人们此时的观点和国王是一样的:即使摆满了棋盘,麦子也不会有多少。但是渐渐地,人们发现棋盘上麦子的数量要远远超过预期,全世界的数据竟然会达到这样一种规模——据IDC预计,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。全球大概需要376亿个1TB硬盘来存储数据。
 
大数据时代企业备份容灾面临的压力
 也许有人认为这只是一个全球性的大背景,具体到企业或者个人上,大数据也许没有那样明显的体现。然而,事实真的是这样吗?
 
就个人来说,相信大家都有这样的经历:电脑明明已经有了几百G的硬盘,然而却总是嫌空间不够,需要在精挑细选下载的电影、电视、游戏、资料中再精挑细选一遍,忍痛删除一些,然后放入新的数据。
 
就企业来说,也许前几年CIO们的重点还在如何挑选服务器上,在性能、价格上面反复考量。但是渐渐地,问题似乎不再是如何选择服务器,而是如何应对数据的爆炸式增长,如何规划存储,如何保护数据。
 
数据是企业最为宝贵的财产,备份是最为常见的保护数据的方法。然而前面已经说到,数据的增长已经为企业的存储带来了极大的压力,更何况要不断地把这些数据备份……笔者不禁在头脑中再次浮现出开篇故事的场景:棋盘里不断成倍增长的麦子。
 
在这样的背景下,重复数据删除技术的出现就毫不奇怪了。其实,早在“大数据”这一概念被提出来之前,重复数据删除技术就已经存在。因为在那个时候,数据也需要备份,重复数据也存在。但是到了大数据时代,重复数据删除技术的价值则显得更为宝贵。从最初的被怀疑、到价值彰显,直到现在,重复数据删除技术已经成为大数据时代企业IT系统的必配技术。在今天,企业面对重复数据删除技术,所考虑的问题已经不是要不要使用该技术,而是要结合自身IT系统的当前情况以及未来规划去思考如何挑选不同的重删产品,如何部署重复数据删除解决方案。
 
基于数据类型优化的重删技术
 浪擎容灾技术平台所采用的重复数据删除有三个主要核心优势:
 
1. 基于数据类型的指纹识别:通常的做法是基于全局的指纹库识别进行重复数据块的识别,但是我们发现,不同类型的数据,本身的重复率就不高,比如办公文档类型和视频图片类型,测试数据表明,混合类型的数据重删率与这种基于数据类型的指纹识别相比,重删率基本相当,但是性能却有不及后者。正是通过这种小改进,获得了极大的性能和效率的提升。当然,类型识别的基础是OFS对象文件系统提供的全局对象管理算法。
 
2. 可动态适应的数据分块技术:通过上述基于数据类型的全局指纹识别,重删技术采用了动态分块技术,也就是可以根据类型、源端对象大小进行动态调整,这种情况比较适合于数据对象大小不一的情况下,重删效果的提升,比如,在大量小数据的场合下,和少量大数据的场合下,二者采用同样分块大小,对于性能和效果表现都不是很理想,而采用动态分块技术,可以针对不同范围内的数据对象进行适应性分块,使得匹配概率和效率更高。
 
3. 面向一体化容灾的重删:浪擎容灾技术体系下的重删技术,可以适用于定时备份、CDP实时备份和应用容灾,对于定时备份,显而易见,而对于CDP实时备份和应用容灾,由于实时数据堆积,存储容量、初始化的性能,都是极大的调整,通过重删,提升的正是在实时和容灾数据初始化的性能和空间的有效利用率。
 
这种基于数据类型优化的源端重复数据删除,对于用户而言,可以根据实际情况进行数据类型和数据块分块范围进行优化,对于高端用户而言,其灵活性和可配置性有了更优的效果。
 
浪擎容灾技术的重删价值 
浪擎容灾技术体系中的源端重复数据删除技术,其重删比最高可达99%,能够有效控制因备份而产生的重复数据的快速增长。可以适用于定时、实时和应用容灾技术,从定时备份来说,为了达到控制大量重复数据的增长、减少需要备份的数据等目标,在完全备份之外,还有增量备份和差异备份,通过这两种备份方式减少备份数据。然而,即使是增量备份,在保护基于文件级变化的数据时,还是会备份很多重复的数据。当对跨越多个站点的多个服务器进行备份时,通过部署重复数据解决方案减少备份所需存储空间才是更好的选择。其价值更是不言而喻的:
 
1. 节省备份系统所需存储空间:备份介质的无效使用率将得到有效控制,宝贵的空间将得到释放,而不是只存放一模一样的数据副本;
 
2. 降低IT成本:随着存储空间的释放,在备份方面的预算将会有所下降,进而,其他成本(能耗、机房空间、管理成本等等)都将随着重复数据删除技术的应用而得到降低;
 
3. 释放带宽压力:对于需要将备份数据迁移到远程进行异地保护的用户来说,在带宽资源不足的情况下,大量重复数据的传输无疑会浪费本就稀缺的带宽,严重增加带宽传输压力,而部署了源端重复数据删除后,能够有效的改善上述情况。
 
4. 部署更加灵活:源端重删与目标端重删具有更大的灵活性,在用户IT环境变化,比如服务器数量增加的情况下,只需要在增加的服务器上部署相应重删模块就可以完成部署,而目的端重删则很可能受限于性能等因素而无法接入更多的设备。
 
在大数据汹涌而至的时代,大数据不仅仅是体现的信息化现状,而且体现在处理大数据的技术层面(简称大数据技术),基于类型优化的源端重复数据删除技术,就是一体化容灾技术体系的大数据技术。这无疑让采用一体化容灾技术的用户能够更加从容面对信息化时代的大数据洪流。