|
|
|
@ -1,8 +1,10 @@
|
|
|
|
|
## 1.4 Windows+Pycharm搭建Python版Spark开发环境
|
|
|
|
|
|
|
|
|
|
开发`Spark`程序的时候,如果每次都把代码提交到集群上运行,想必会非常麻烦,那么搭建一个`windows`版的开发环境是非常有必要的。
|
|
|
|
|
|
|
|
|
|
### 1.4.1 JDK安装
|
|
|
|
|
|
|
|
|
|
在DOC命令行窗口输入java -version出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的spark版本需要使用jdk1.8版本以上。
|
|
|
|
|
在`DOC`命令行窗口输入`java -version`出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的`Spark`版本需要使用`jdk1.8`版本以上。
|
|
|
|
|
|
|
|
|
|
<p align="center" >
|
|
|
|
|
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/458936" alt="" height="100%" width="100%" />
|
|
|
|
@ -12,7 +14,7 @@
|
|
|
|
|
|
|
|
|
|
### 1.4.2 Python安装
|
|
|
|
|
|
|
|
|
|
在DOC命令行窗口输入python出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的python版本需要使用python2.7版本以上。
|
|
|
|
|
在`DOC`命令行窗口输入`Python`出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的`Python`版本需要使用`python2.7`版本以上。
|
|
|
|
|
|
|
|
|
|
<p align="center" >
|
|
|
|
|
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/458940" alt="" height="100%" width="100%" />
|
|
|
|
@ -22,7 +24,8 @@
|
|
|
|
|
|
|
|
|
|
### 1.4.3 scala安装
|
|
|
|
|
|
|
|
|
|
本教程所使用的python版本推荐使用scala2.11.x版本。
|
|
|
|
|
本教程所用`Spark`版本推荐使用`scala2.11.x`版本。
|
|
|
|
|
|
|
|
|
|
打开官网<a href="https://www.scala-lang.org/download/2.11.8.html" target="view_frame">下载地址 </a>下载对应安装包。
|
|
|
|
|
|
|
|
|
|
下载页面的底部点击如下所示红框处即可下载。
|
|
|
|
@ -33,7 +36,7 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
解压配置环境变量,在DOC命令行窗口输入scala出现下图所示即表示已经安装成功。
|
|
|
|
|
解压配置环境变量,在`DOC`命令行窗口输入`scala`出现下图所示即表示已经安装成功。
|
|
|
|
|
|
|
|
|
|
<p align="center" >
|
|
|
|
|
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/459087" alt="" height="100%" width="100%" />
|
|
|
|
@ -46,7 +49,7 @@
|
|
|
|
|
到`Spark`官网:<a href="https://archive.apache.org/dist/spark/spark-2.3.4/" target="view_frame">下载地址 </a> 下载
|
|
|
|
|
`Hadoop`版本为`2.7`,`Spark`版本为`2.3.4`的`spark`安装包。
|
|
|
|
|
|
|
|
|
|
解压配置环境变量,在DOC命令行窗口输入spark-shell出现下图所示即表示已经安装成功(图示报错不影响spark运行,该报错表示未安装hadoop)。
|
|
|
|
|
解压配置环境变量,在`DOC`命令行窗口输入`spark-shell`出现下图所示即表示已经安装成功(图示报错不影响`Spark`运行,该报错表示未安装`Hadoop`)。
|
|
|
|
|
|
|
|
|
|
<p align="center" >
|
|
|
|
|
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/459186" alt="" height="100%" width="100%" />
|
|
|
|
@ -57,7 +60,7 @@
|
|
|
|
|
|
|
|
|
|
### pycharm环境安装
|
|
|
|
|
|
|
|
|
|
1.打开pycharm,创建一个项目,如下图;
|
|
|
|
|
1.打开`pycharm`,创建一个项目,如下图;
|
|
|
|
|
|
|
|
|
|
<p align="center" >
|
|
|
|
|
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/459196" alt="" height="100%" width="100%" />
|
|
|
|
@ -65,10 +68,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2.添加pyspark.zip和py4j包到项目中(这两个文件在spark安装目录\python\lib中)
|
|
|
|
|
2.添加`pyspark.zip`和`py4j`包到项目中(这两个文件在`Spark`安装目录`\python\lib`中)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
依次点击 file >> setting >> Project:pspark >> Project Structure
|
|
|
|
|
依次点击:`file >> setting >> Project:pspark >> Project Structure`
|
|
|
|
|
|
|
|
|
|
<p align="center" >
|
|
|
|
|
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/459207" alt="" height="100%" width="100%" />
|
|
|
|
@ -76,7 +79,7 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3.新建一个python文件,执行以下代码,输出了你的spark版本无报错即安装成功了。
|
|
|
|
|
3.新建一个`python`文件,执行以下代码,输出了你的`Spark`版本无报错即安装成功了。
|
|
|
|
|
|
|
|
|
|
```
|
|
|
|
|
from pyspark.sql import SparkSession
|
|
|
|
@ -91,3 +94,7 @@ print(spark.version)
|
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<p align="center" >
|
|
|
|
|
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/459543" alt="" height="100%" width="100%" />
|
|
|
|
|
</p>
|