5.4 KiB
1.4 搭建Python版Spark开发环境
开发Spark
程序的时候,如果每次都把代码提交到集群上运行,想必会非常麻烦,那么搭建一个windows
版的开发环境是非常有必要的。
1.4.1 JDK安装
在DOC
命令行窗口输入java -version
出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的Spark
版本需要使用jdk1.8
版本以上。
打开官网下载地址 下载相应版本;
解压到相应目录并配置环境变量: 解压到D:\Program Files\Java目录下 打开环境变量编辑窗口:
1.4.2 Python安装
在DOC
命令行窗口输入Python
出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的Python
版本需要使用python2.7
版本以上。
1.4.3 scala安装
本教程所用Spark
版本推荐使用scala2.11.x
版本。
打开官网下载地址 下载对应安装包。
下载页面的底部点击如下所示红框处即可下载。
解压配置环境变量,在DOC
命令行窗口输入scala
出现下图所示即表示已经安装成功。
1.4.4 spark安装
到Spark
官网:下载地址 下载
Hadoop
版本为2.7
,Spark
版本为2.3.4
的spark
安装包。
解压配置环境变量,在DOC
命令行窗口输入spark-shell
出现下图所示即表示已经安装成功(图示报错不影响Spark
运行,该报错表示未安装Hadoop
)。
pycharm环境安装
1.打开pycharm
,创建一个项目,如下图;
2.添加pyspark.zip
和py4j
包到项目中(这两个文件在Spark
安装目录\python\lib
中)
依次点击:file >> setting >> Project:pspark >> Project Structure
3.新建一个python
文件,执行以下代码,输出了你的Spark
版本无报错即安装成功了。
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.master("local")\
.appName("Python Spark SQL basic example") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()
print(spark.version)