时至今日,“Bigdata”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业, 几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论坛到游戏社区再到微博,从互联网到移动互联网再到物联网,人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲,他们需要关注的数据显然已经不仅限于企业内部数据库中的业务数据,还要包括互联网(以及未来的物联网)上各类网络活动所产生的相关数据记录。
用户需求——海量+实时分析
来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。
而另一个需求则来自于对海量数据的实时查询访问需求。在数据仓库诞生的第一天,一直就有一个话题,要把大查询分解成小任务,这些小任务由一台台的机器来完成。
“我们的要求在于,上亿条数据的分析能够在5秒钟内完成”,中国民族证券信息技术部总经理颜阳表示,在证券行业由于发展的波动性很大,因此证券公司的投入也是基于量入为出,采用了MPP(大规模并行处理)架构的数据库(数据仓库)。其基本特征在于是由多个SMP服务器通过节点互连,而每个节点只能访问本地资源,是一种完全无共享的结构,因此扩展性很好。当基于此数据库来开发应用时,不需要考虑服务器由多少节点组成,也不需要考虑负载问题。
大数据并不等于IT重构
对真正需要大数据的企业而言,大数据的需求并不等于IT重构。大数据的基础架构需要的是前瞻性,随着数据的不断增长,用户需要从硬体、软件层面思考需要什么样的架构去实现。必然,未来需要的是一个能够支持非常好的、可扩张性的、对文件存储友好的文件系统。目前,不管是IBM、EMC还是我们浪擎都推出了自己的Bigdata Total solution,从中对比我们可见一斑。
浪擎科技——浪擎私有云
21世纪是“云”的时代,客户的业务随着客户规模的不断扩大,变得越来越庞大、复杂。客户管理业务系统也变得越来越困难,根据客户的需求,浪擎科技正式推出了“私有云平台”,通过这一新的解决方案,浪擎科技能够给客户带来一个方便的、开放的、高效的云管理平台,把客户从繁杂的业务系统管理中解放出来。
浪擎私有云主要有一下几个优势:1.可动态资源部署,方便用户随时、随需申请资源。;2.基于云平台,可快速部署新业务;3.开放性的平台,存储、服务器品牌无需一致;4.虚拟化各层资源,使用更加合理; 5.WEB系统管理平台统一管理、监控,减少人力资源;6.部署浪擎灾备系统,保障了数据安全,通过使用浪擎的国内先进的灾备技术,给客户打造一个优质的、安全的云管理平台。
IBM——数据仓库一体机
IBM将数据仓库做成了硬件化的产品,标配Power服务器、存储,再加上刚收购的Netezza。Netezza新型数据仓库一体机渠道经理郑晓军表示,“凡是玩过云计算、Hadoop的用户,对于Netezza的环境搭建只是小菜一碟。”
当数据存进去的时候,会把数据平均的分在所有的节点上,节点的均衡是由Netezza自己来决定的。数据存在硬盘的时候用的格式是“Zone Maps”,把一张表里所有的字段,根据值不同,分了所有的分片。有了Zone Maps之后,FPGA扫描的时候,只会读取那些包含记录的区域,这些地方硬盘加速效率很高的。如果数据修改的话,会在新增添的数据记录里面增添,定时会对数据重组,进行压缩,这些都是通过后台进程管理的。
EMC——自服务数据仓库
Greenplum Chorus是EMC的数据云平台,堆栈了各种大数据分析工具(业务分析、BI、统计等)。
EMC中国研发中心首席技术官陶波表示,Greenplum Chorus构成主要由自助式的调配、数据服务协作分析所组成。当用户同时部署Chorus、VMware、Greenplum后,可以完全实现自服务,自服务可以是一个服务器,也可以生成一个沙箱,而这个沙箱既可以基于虚拟化的IT云计算平台上,也可以是在Greenplum的数据库上。同时,用户可以把在企业云里面其他的原数据导入到自己的沙箱中进行操作。与此同时,开发者还可以创造一个合作环境,在分享数据的同时要控制授权,避免私人数据被不适当的使用。