You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
prply92i3/chapter1/1.4Windows+Pycharm搭建Python版...

5.4 KiB

1.4 搭建Python版Spark开发环境

开发Spark程序的时候,如果每次都把代码提交到集群上运行,想必会非常麻烦,那么搭建一个windows版的开发环境是非常有必要的。

1.4.1 JDK安装

DOC命令行窗口输入java -version出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的Spark版本需要使用jdk1.8版本以上。

打开官网下载地址 下载相应版本;

解压到相应目录并配置环境变量: 解压到D:\Program Files\Java目录下 打开环境变量编辑窗口:

1.4.2 Python安装

DOC命令行窗口输入Python出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的Python版本需要使用python2.7版本以上。

1.4.3 scala安装

本教程所用Spark版本推荐使用scala2.11.x版本。

打开官网下载地址 下载对应安装包。

下载页面的底部点击如下所示红框处即可下载。

解压配置环境变量,在DOC命令行窗口输入scala出现下图所示即表示已经安装成功。

1.4.4 spark安装

Spark官网:下载地址 下载 Hadoop版本为2.7Spark版本为2.3.4spark安装包。

解压配置环境变量,在DOC命令行窗口输入spark-shell出现下图所示即表示已经安装成功(图示报错不影响Spark运行,该报错表示未安装Hadoop)。

pycharm环境安装

1.打开pycharm,创建一个项目,如下图;

2.添加pyspark.zippy4j包到项目中(这两个文件在Spark安装目录\python\lib中)

依次点击:file >> setting >> Project:pspark >> Project Structure

3.新建一个python文件,执行以下代码,输出了你的Spark版本无报错即安装成功了。

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .master("local")\
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

print(spark.version)