【成都网站建设】海量数据战争——谁能赢得未来?

2022-07-28    分类: 网站建设

成都网站建设】海量数据战争——谁能赢得未来?

时至今日,海量数据时代的来临已经毋庸置疑,尤其是在互联网、电信、金融等行业,几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化,这也是我们通常所说的非结构化数据。

以往人们认为,把企业自有的运营数据进行深度分析后,自然会有所得。但在今天看来,这种做法的一大缺陷就是,数据不够全面、及时。从理论上讲,谁掌握的数据越全面,得出的结论就越趋向于合理。企业只有构建一个容纳了足够多关键信息的“深水池”,才更有可能做出正确的决策。

这种趋势已经让很多相信数据之力量的企业做出改变,随之而来的,则是企业在IT架构上的改变,这也意味着,海量数据市场,正孕育着一个前景无法限量的巨大商机。

海量数据市场争夺——对IT大佬们而言,这也是一场谁也输不起的“战争”。

Hadoop的神话

从Yahoo的 Web搜索研究,到Facebook的数据分析,再到百度的搜索日志分析、淘宝的数据魔方服务,以及中移动推出了 “大云”(BigCloud)系统,Hadoop的身影都已经到处闪现。简单来讲,社会化数据时代的企业需要像八爪鱼一样,能够发现并拿到他需要的数据,而Hadoop技术的好处就是,不但可以方便地嵌入到各种实际应用中以实现全文搜索/索引,而且可以进行数据抓取。比如雅虎,通过应用这一技术,几乎可以实时分析每一个页面点击并优化内容的排名,每7分钟就能更新一次结果。

以Hadoop为代表的海量数据处理开源工具无疑是吸引人的,“开源工具可以查看代码,这样开发者可以找到他们整合时里面是什么。在几乎所有的案例中,开源分析都更具性价比和灵活性。”Revolution Analytics的Minelli表示。

数据量在持续的增长,公司将被迫增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。Twitter选择Hadoop,其中重要的原因是专有工具的费用太高。

Hadoop之所以能够风靡一时,在笔者看来,除了其在海量数据处理上的方式,最重要的因素关键在于它是免费的。

更长远的来看,开源工具使企业创建新的分析技术,更好的处理非结构化的语言,比如图片等。而不能寄托于传统厂商发展新的分析技术。开源工具给了企业创新的机会。

但是Hadoop也并不能代表一切,Hadoop的MapReduce在性能上的确是有局限性的:比如MapReduce没有索引,只有靠强大的运算能力来处理;此外,MapReduce本身存在一些lower-level实现的问题, 特别是skew和数据交换等等。

Cloudscale创始人和首席执行官Bill McColl曾指出,从性能上而言,下一代的架构需要在MapReduce/Hadoop的基础上有10——10000倍的性能提高。正因如此,我们看到,针对Hadoop遭遇到的性能瓶颈,Yahoo正准备开始对Hadoop进行重构。

与此同时,Hadoop的竞争对手们,比如Cloudera、Mapr们,正紧锣密鼓地推出更具竞争力的产品和技术,而最新的产品无疑是Mapr,Marp是一个比现有Hadoop分布式文件系统还要快三倍的产品,并且也是开源的。Mapr配备了快照,并号称不会出现SPOF单节点故障,且被认为是与现有HDFS的API兼容。因此非常容易替换原有的系统。

总之,Hadoop并不一定适合所有的案例。比如海量数据的捕捉、存储、分析,依靠特殊的应用的特性,等等,这些都非Hadoop所长。相比较Hadoop的处理能力,一些SQL架构依然呈现数量级的优势。从某种意义上而言,在采用scale-out网络连接方式的EMC Isilon或IBM的SONAS,可能对于使用非结构化的数据比如图片、视频会更好。

因此,海量数据竞争的另外一个领域就是开源与专有工具的混合使用,这也是传统的IT大佬们正在努力的方向。

IT大佬们的海量数据算盘

如果你认为IBM、EMC、Oracle、微软这些传统的数据技术大佬们对海量数据这个市场视而不见,那么你就错了。IBM、EMC、甚至包括微软,他们与开源项目的合作一直都非常紧密。

IBM

实际上,IBM早已拥有了Hadoop项目,并推出了在Hadoop架构上建立作为群集运行DB2或Oracle数据库的集群系统,根据IBM的测试数据显示,在IBM一个拥有40个节点的文件系统将有12GB/sec吞吐量,并与400个节点的系统可以达到120GB/sec吞吐量。

如果再深究的话,你可以发现,在海量数据上,IBM其实主打的是小型机的并行运算,这一点,从其前不久推出的Watson就能看出,由90台Power组成的Watson是一个非常典型的BI实例,从数据存储、到数据分析与挖掘,Watson体现的是IBM对于未来海量数据的实现原理,Watson存储了海量的百科全书、论文文献等等以文章方式存储的资料,它们之中也会有相关的信息。但由于这些资料是非结构化的,所以watson必须通过非常费力的文本搜索来取得信息。而这个过程中又会用到前面用过的提取专有名词、词性、文本结构等方式。

从架构上可以看到,Watson所使用的软件实质是建立在IBM开源的UIMA体系结构之上。UIMA是一个用于非结构化信息管理应用的平台,提供了一个可使问题处理模块独立工作的框架,能够对结果进行筛选得出答案。而Apache项目则开发了当前的UIMA版本以及一些通用模块,而Watson在电视节目中使用的模块只是其中的一部分。

EMC

2010年7月,当EMC宣布以现金方式收购私有数据存储公司Greenplum后,迅速以Greenplum为基础,在信息基础架构业务部门之下组成一个新的部门——数据计算产品部。而在完成了Isilon的收购后,EMC也完全具备了进军海量数据市场的一切产品和技术。

根据EMC的Isilon横向扩展NAS架构(使用其OneFS操作系统)可以看到,其可在单一文件系统中扩展至10PB以上,并支持每秒50GB的吞吐量。然而,大数据应用可能会更注重某方面或其其他相关数据。因此,Isilon中的S产品系列主要针对于高事务处理和IOPS密集的应用,比如基因组研究;而X系列解决方案主要针对容量密集型应用,诸如医疗图像这样的需要高并发处理和顺序吞吐的应用。

而Greenplum则专注于应对大数据所带来的分析挑战。其产品套件支持分析密集型的大数据集,最终帮助终端用户大数据中挖掘突出价值。这通常需要复杂分析,比如特定的互动分析,而非简单的结构报告。分析速度尤其重要,特别是在需要频繁执行时以及数据分析结果有助于决策时。此外,为满足更大规模的数据应用需求,Greenplum还开发了大规模并行处理(MPP)系统,其关键要素在于性能和可扩展性。

微软

应该说,在非结构化数据市场,微软一直都在对这个市场持续认真地投入,并于去年年底发布了公测版Dryad平台,其实,Dryad也并非微软的新产品,Dryad和DryadLINQ其实早在微软收购Powerset之前就已经存在,目前推出的,只不过是商业版。微软于2007年首度揭晓了关于技术的研究成果,并于2009年向学术界推出了非商业版Dryad和DryadLINQ。

值得注意的是,2008年,微软曾收购了Powerset,并将Powerset基于Hadoop的技术应用于其(bing)搜索引擎之上。而微软当时甚至答应Powerset员工继续向Hadoop贡献源代码,Powerset也由此建立了Hadoop的姊妹项目——HBase,模拟Google的BigTable数据库。

与MapReduce不同的是,Dryad是针对运行Windows HPC Server的集群计算设计的,而非Linux——这恐怕是Dryad容易被人所诟病的一点。由于Hadoop是基于Java编写的,因此这些程序恐怕并不太适合跑在微软的Windows平台或者.NET之上;另外,微软是在2005年进入到高性能计算市场的,目前而言,这个市场是被Linux所占领的。而目前Apache的Hadoop环境是只支持Linux的,Windows还在不断开发中。

不仅如此,微软还在近日发布了其图数据库系统Trinity。Trinity是一个基于内存的数据存储与运算系统,目前在微软为Probase和AEther这两个产品服务。

专有工具、开源工具你选谁?

海量数据正在不断生成,对于急需改变自己传统IT架构的企业而言,传统的结构化数据与非结构化数据的融合,成了所有人的心病,凭心而论,在Google公开其Megastore之前,类似象金融、电信这样的客户,很少敢于将自己的数据系统做全面的迁移,而这对于传统的结构化数据厂商来说,无疑是给了一个喘息的机会。

短期来讲,开源分析将越来越广泛的使用,并且增长迅速。长期来看,混合技术的应用将在高度竞争的市场上出现,两者将同样有巨大的需求。

提供了处理大数据分析能力的专有软件包括AsterData;IBM的专有软件Netezza、Datameer, 建立在Apache的Hadoop上的专有软件以及Paraccel。

此外,Oracle 的Exadata以及EMC的Greenplum也是处理大数据量的专有工具。EMC引入了Greenplum数据库的免费社区版本,该社区版本只是软件。Greenplum社区报表包括3个协作模块Greenplum DB, MADlib, 和Alpine Miner。

处理大数据量的开源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。

Jaspersoft提供的BI工具,提供了报告、分析、ETLETL (解压、转换、加载) ,针对大量的并行分析数据库,包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地报告,通过Hadoop和各种类型的NoSQL数据库包括MongoDB, Riak, CouchDB and Infinispan的开源连接。

网页标题:【成都网站建设】海量数据战争——谁能赢得未来?
本文网址:https://www.cdcxhl.com/news30/182730.html

成都网站建设公司_创新互联,为您提供关键词优化营销型网站建设网站建设品牌网站建设网站内链搜索引擎优化

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

网站建设网站维护公司