From 2dddcd6479a413fe4d41cc7577d38d569810cc42 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E6=85=A2=E6=85=A2?= <905907915@qq.com> Date: Thu, 7 Nov 2019 17:38:12 +0800 Subject: [PATCH] nr --- .../1.4搭建Python版Spark开发环境.md | 160 ++++++++++++++++++ 1 file changed, 160 insertions(+) diff --git a/chapter1/1.4搭建Python版Spark开发环境.md b/chapter1/1.4搭建Python版Spark开发环境.md index e69de29..e150eb3 100644 --- a/chapter1/1.4搭建Python版Spark开发环境.md +++ b/chapter1/1.4搭建Python版Spark开发环境.md @@ -0,0 +1,160 @@ +## 1.4 搭建Python版Spark开发环境 + +开发`Spark`程序的时候,如果每次都把代码提交到集群上运行,想必会非常麻烦,那么搭建一个`windows`版的开发环境是非常有必要的。 + +### 1.4.1 JDK安装 + +在`DOC`命令行窗口输入`java -version`出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的`Spark`版本需要使用`jdk1.8`版本以上。 + +打开官网下载地址 下载相应版本; + +![](/api/attachments/459657) + +解压到相应目录并配置环境变量: +解压到D:\Program Files\Java目录下 +打开环境变量编辑窗口: + +

+ +

+ + + +

+ +

+ + + +

+ +

+ + +

+ +

+ + + +

+ +

+ + + +

+ +

+ + + +

+ +

+ + + +

+ +

+ + + + + + + + +

+ +

+ + + +### 1.4.2 Python安装 + +在`DOC`命令行窗口输入`Python`出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的`Python`版本需要使用`python2.7`版本以上。 + +

+ +

+ + + +### 1.4.3 scala安装 + +本教程所用`Spark`版本推荐使用`scala2.11.x`版本。 + +打开官网下载地址 下载对应安装包。 + +下载页面的底部点击如下所示红框处即可下载。 + +

+ +

+ + + +解压配置环境变量,在`DOC`命令行窗口输入`scala`出现下图所示即表示已经安装成功。 + +

+ +

+ + + +### 1.4.4 spark安装 + +到`Spark`官网:下载地址 下载 +`Hadoop`版本为`2.7`,`Spark`版本为`2.3.4`的`spark`安装包。 + +解压配置环境变量,在`DOC`命令行窗口输入`spark-shell`出现下图所示即表示已经安装成功(图示报错不影响`Spark`运行,该报错表示未安装`Hadoop`)。 + +

+ +

+ + + + +### pycharm环境安装 + +1.打开`pycharm`,创建一个项目,如下图; + +

+ +

+ + + +2.添加`pyspark.zip`和`py4j`包到项目中(这两个文件在`Spark`安装目录`\python\lib`中) + + +依次点击:`file >> setting >> Project:pspark >> Project Structure` + +

+ +

+ + + +3.新建一个`python`文件,执行以下代码,输出了你的`Spark`版本无报错即安装成功了。 + +``` +from pyspark.sql import SparkSession + +spark = SparkSession \ + .builder \ + .appName("Python Spark SQL basic example") \ + .config("spark.some.config.option", "some-value") \ + .getOrCreate() + +print(spark.version) +``` + + + +

+ +

\ No newline at end of file