windows安装spark及PyCharmIDEA调试TopN的示例分析

这篇文章给大家分享的是有关windows安装spark及PyCharm IDEA调试TopN的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

创新互联专注为客户提供全方位的互联网综合服务,包含不限于网站建设、做网站、尼河口网络推广、小程序设计、尼河口网络营销、尼河口企业策划、尼河口品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;创新互联为所有大学生创业者提供尼河口建站搭建服务,24小时服务热线:028-86922220,官方网址:www.cdcxhl.com

1、安装 jdk

安装spark第一步就是安装jdk(无论windows还是linux),spark执行依赖jdk。在oracle官网上下载jdk,这里我选择的是8u74 windows x64版本,你也可以根据自己的需求下载,jdk的安装在此不表,无非就是下一步,选安装路径什么的。

2、安装spark

在Apache Spark™官方网站下载spark,选择spark-1.6.0-bin-hadoop2.6.tgz。

添加spark环境变量,在PATH后面追加:
%SPARK_HOME%\bin
%SPARK_HOME%\sbin

windows 环境下的spark搭建完毕!!!

注意此处有坑:

Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

spark虽然支持standalone模式,并且不依赖hadoop。但是在windows环境下还是需要hadoop的这个winutils.exe。因此需要下载2.6版本匹配的winutils.exe. 可以google "hadoop.dll 2.6" 或在此下载(hadoop dll  winutils.exe,GitHub各种版本都有), 将下载后的文件覆盖至hadoop的bin目录(没有的话需要建个目录,并设置相应hadoop环境HADOOP_HOME及PATH环境变量)。

3、搭建 pyspark 开发环境

spark支持scala、python和java,由于对python的好感多于scala,因此开发环境是Python。
下面开始搭建python环境:

2.7或3.5均可,安装过程在此不表,安装完成后在环境变量里添加PYTHONPATH,这一步很重要:

windows安装spark及PyCharm IDEA调试TopN的示例分析

如果配置正确,打开python自带的IDE,输入以下代码,然后等待连接成功的消息即可:

from pyspark import SparkConf, SparkContext 
conf = SparkConf().setMaster("local").setAppName("MY First App") 
sc = SparkContext(conf = conf)

也可以手动启动测试下:

spark-class.cmd org.apache.spark.deploy.master.Master
spark-class.cmd org.apache.spark.deploy.worker.Worker spark://localhost:7077

4、SPARK分析CSDN密码库常用密码 TOP10

# coding=utf-8
# 测试utf-8编码
from __future__ import division
import decimal
from pyspark import SparkConf, SparkContext, StorageLevel

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

conf = SparkConf().setMaster("local").setAppName("CSDN_PASSWD_Top10")
sc = SparkContext(conf=conf)

file_rdd = sc.textFile("H:\MySQL\csdn_database\www.csdn.net.sql")
passwds = file_rdd.map(lambda line: line.split("#")[1].strip()).map(lambda passwd: (passwd, 1)).persist(
    storageLevel=StorageLevel.MEMORY_AND_DISK_SER)
passwd_nums = passwds.count()
top10_passwd = passwds.reduceByKey(lambda a, b: a + b).sortBy(lambda item: item[1], ascending=False).take(10)
for item in top10_passwd:
    print item[0] + "\t">

windows安装spark及PyCharm IDEA调试TopN的示例分析windows安装spark及PyCharm IDEA调试TopN的示例分析

5、Scala-Shell 版本

代码如下:

C:\Users\username>spark-shell

scala> val textFile = spark.read.textFile("C:\\Users\\username\\Desktop\\parse_slow_log.py")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]

scala> textFile.count()
res0: Long = 156

scala> textFile.first()
res1: String = # encoding: utf-8

scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark: org.apache.spark.sql.Dataset[String] = [value: string]

scala> textFile.filter(line => line.contains("Spark")).count()
res2: Long = 0

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)
res3: Int = 27

scala> val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()
wordCounts: org.apache.spark.sql.Dataset[(String, Long)] = [value: string, count(1): bigint]

scala> wordCounts.collect()
res4: Array[(String, Long)] = Array((self.slowlog,1), (import,3), (False,,1), (file_name,,1), (flag_word,3), (MySQL,1), (else,1), (*,2), (slowlog,1), (default=script_path),1), (0,4), ("",2), (-d,1), (__auther,1), (for,5...
scala

感谢各位的阅读!关于“windows安装spark及PyCharm IDEA调试TopN的示例分析”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

网页题目:windows安装spark及PyCharmIDEA调试TopN的示例分析
转载源于:https://www.cdcxhl.com/article40/pocgeo.html

成都网站建设公司_创新互联,为您提供移动网站建设搜索引擎优化域名注册网站收录品牌网站制作

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

小程序开发