|
|
|
@ -0,0 +1,63 @@
|
|
|
|
|
## 1.4 Windows+Pycharm搭建Python版Spark开发环境
|
|
|
|
|
|
|
|
|
|
### 1.4.1 JDK安装
|
|
|
|
|
|
|
|
|
|
在DOC命令行窗口输入java -version出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的spark版本需要使用jdk1.8版本以上。
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
### 1.4.2 Python安装
|
|
|
|
|
|
|
|
|
|
在DOC命令行窗口输入python出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的python版本需要使用python2.7版本以上。
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
### 1.4.3 scala安装
|
|
|
|
|
|
|
|
|
|
本教程所使用的python版本推荐使用scala2.11.x版本。
|
|
|
|
|
|
|
|
|
|
打开官网https://www.scala-lang.org/download/2.11.8.html下载对应安装包。
|
|
|
|
|
|
|
|
|
|
下载页面的底部点击如下所示红框处即可下载。
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
解压配置环境变量,在DOC命令行窗口输入scala出现下图所示即表示已经安装成功。
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
### 1.4.4 spark安装
|
|
|
|
|
到`Spark`官网:<a href="https://archive.apache.org/dist/spark/spark-2.3.4/" target="view_frame">下载地址 </a> 下载
|
|
|
|
|
`Hadoop`版本为`2.7`,`Spark`版本为`2.3.4`的`spark`安装包。
|
|
|
|
|
|
|
|
|
|
解压配置环境变量,在DOC命令行窗口输入spark-shell出现下图所示即表示已经安装成功(图示报错不影响spark运行,该报错表示未安装hadoop)。
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### pycharm环境安装
|
|
|
|
|
打开pycharm,创建一个项目,如下图;
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
添加pyspark.zip和py4j包到项目中(这两个文件在spark安装目录\python\lib中)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
点击 file >> setting >> Project:pspark >> Project Structure
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
新建一个python文件,执行以下代码,输出了你的spark版本无报错即安装成功了。
|
|
|
|
|
```
|
|
|
|
|
from pyspark.sql import SparkSession
|
|
|
|
|
|
|
|
|
|
spark = SparkSession \
|
|
|
|
|
.builder \
|
|
|
|
|
.appName("Python Spark SQL basic example") \
|
|
|
|
|
.config("spark.some.config.option", "some-value") \
|
|
|
|
|
.getOrCreate()
|
|
|
|
|
|
|
|
|
|
print(spark.version)
|
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
|