一行代码，Pandas秒变分布式，快速处理TB级数据

作者：佚名 2018-03-08 11:43:18

大数据

分布式刚刚在Pandas上为十几KB的数据做好了测试写好了处理脚本，上百TB的同类大型数据集摆到了面前。这时候，你可能面临着一个两难的选择：继续用Pandas?可能会相当慢，上百TB数据不是它的菜。

创新互联公司主营应城网站建设的网络公司,主营网站建设方案,成都app软件开发公司,应城h5微信小程序搭建,应城网站营销推广欢迎应城等地区企业咨询

刚刚在Pandas上为十几KB的数据做好了测试写好了处理脚本，上百TB的同类大型数据集摆到了面前。这时候，你可能面临着一个两难的选择：

继续用Pandas?可能会相当慢，上百TB数据不是它的菜。

(ಥ_ಥ) 然而，Spark啊分布式啊什么的，学习曲线好陡峭哦~在Pandas里写的处理脚本都作废了好桑心哦~

别灰心，你可能真的不需要Spark了。

加州大学伯克利分校RiseLab最近在研究的Pandas on Ray，就是为了让Pandas运行得更快，能搞定TB级数据而生的。这个DataFrame库想要满足现有Pandas用户不换API，就提升性能、速度、可扩展性的需求。

研究团队说，只需要替换一行代码，8核机器上的Pandas查询速度就可以提高4倍。

其实也就是用一个API替换了Pandas中的部分函数，这个API基于Ray运行。Ray是伯克利年初推出的分布式AI框架，能用几行代码，将家用电脑上的原型算法转换成适合大规模部署的分布式计算应用。

Pandas on Ray的性能虽说比不上另一个分布式DataFrame库Dask，但更容易上手，用起来和Pandas几乎没有差别。用户不需要懂分布式计算，也不用学一个新的API。

与Dask不同的是，Ray使用了Apache Arrow里的共享内存对象存储，不需要对数据进行序列化和复制，就能跨进程通讯。

在8核32G内存的AWS m5.2xlarge实例上，Ray、Dask和Pandas读取csv的性能对比

它将Pandas包裹起来并透明地把数据和计算分布出去。用户不需要知道他们的系统或者集群有多少核，也不用指定如何分配数据，可以继续用之前的Pandas notebook。

前面说过，使用Pandas on Ray需要替换一行代码，其实就是换掉导入语句。

  
 
 
 
   
  
  
  # import pandas as pd
   
  
  
  import ray.dataframe as pd

这时候你应该看到：

初始化完成，Ray自动识别了你机器上可用的核心，接下来的用法，就和Pandas一样了。

Pandas on Ray目前还处于早期，实现了Pandas的一部分功能。以一个股票波动的数据集为例，它所支持的Pandas功能包括检查数据、查询上涨的天数、按日期索引、按日期查询、查询股票上涨的所有日期等等。

这个项目的最终目标是在Ray上完整实现Pandas API的功能，让用户可以在云上用Pandas。

目前，伯克利RiseLab的研究员们已经用45天时间，实现了Pandas DataFrame API的25%。

革命尚未成功，项目仍在继续。这些人都在为之努力：

Devin Petersohn, Robert Nishihara, Philipp Moritz, Simon Mo, Kunal Gosar, Helen Che, Harikaran Subbaraj, Peter Veerman, Rohan Singh, Joseph Gonzalez, Ion Stoica, Anthony Joseph

网页名称：一行代码，Pandas秒变分布式，快速处理TB级数据
转载来源：http://www.csdahua.cn/qtweb/news4/505804.html

网站建设、网络推广公司-快上网，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：快上网

成都快上网为您推荐相关内容