Spark累加器实验

以下代码用 Pyspark + IPython 完成

创新互联公司的客户来自各行各业，为了共同目标，我们在工作上密切配合，从创业型小企业到企事业单位，感谢他们对我们的要求，感谢他们从不同领域给我们带来的挑战，让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。专业领域包括做网站、网站建设、电商网站开发、微信营销、系统平台开发。

统计日志空行的数量：

读取日志，创建RDD：

myrdd = sc.textFile("access.log")

不使用累加器：

In [68]: s = 0
In [69]: def f(x):
    ...:     global s
    ...:     if len(x) == 0:
    ...:         s += 1
    ...:
In [70]: myrdd.foreach(f)
In [71]: print (s)

得出结果为：

原因是python 的变量，即使是全局变量不能应用在各个计算进程（线程）中同步数据，所以需要分布式计算框架的变量来同步数据，Spark 中采用累加器来解决：

使用累加器

In [64]: s = sc.accumulator(0)
In [65]: def f(x):
    ...:     global s
    ...:     if len(x) == 0:
    ...:         s += 1
    ...:
In [66]: myrdd.foreach(f)
In [67]: print (s)

得出正确结果：

网站标题：Spark累加器实验
转载源于：https://www.cdcxhl.com/article18/pdisdp.html

成都网站建设公司_创新互联，为您提供网站排名、网页设计公司、动态网站、定制网站、网站收录、网站维护

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容