diff --git a/SUMMARY.md b/SUMMARY.md index 361834b..11b4edc 100644 --- a/SUMMARY.md +++ b/SUMMARY.md @@ -5,6 +5,7 @@ * [1.1 Scala环境搭建](/chapter1/1.1Scala环境搭建.md) * [1.2 Spark单机版环境搭建](/chapter1/1.2Spark单机版环境搭建.md) * [1.3 Spark完全分布式环境搭建](/chapter1/1.3Spark完全分布式环境搭建.md) + * [1.4 Windows+Pycharm搭建Python版Spark开发环境](/chapter1/1.4Windows+Pycharm搭建Python版Spark开发环境.md) * [第二章 Spark结构化数据分析与处理](/chapter2/2结构化数据分析与处理简介.md) * [2.1SparkSQL入门](/chapter2/2.1SparkSQL入门.md) diff --git a/chapter1/1.3Spark完全分布式环境搭建.md b/chapter1/1.3Spark完全分布式环境搭建.md index 87070a8..7f026ed 100644 --- a/chapter1/1.3Spark完全分布式环境搭建.md +++ b/chapter1/1.3Spark完全分布式环境搭建.md @@ -38,7 +38,7 @@ ### 1.3.3 下载Spark安装包 -到`Spark`官网:下载地址 下载 +到`Spark`官网:下载地址 下载 `Hadoop`版本为`2.7`,`Spark`版本为`2.3.4`的`spark`安装包。 diff --git a/chapter1/1.4Windows+Pycharm搭建Python版Spark开发环境.md b/chapter1/1.4Windows+Pycharm搭建Python版Spark开发环境.md new file mode 100644 index 0000000..6151803 --- /dev/null +++ b/chapter1/1.4Windows+Pycharm搭建Python版Spark开发环境.md @@ -0,0 +1,63 @@ +## 1.4 Windows+Pycharm搭建Python版Spark开发环境 + +### 1.4.1 JDK安装 + +在DOC命令行窗口输入java -version出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的spark版本需要使用jdk1.8版本以上。 +![](/api/attachments/458936) + +### 1.4.2 Python安装 + +在DOC命令行窗口输入python出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的python版本需要使用python2.7版本以上。 + +![](/api/attachments/458940) + +### 1.4.3 scala安装 + +本教程所使用的python版本推荐使用scala2.11.x版本。 + +打开官网https://www.scala-lang.org/download/2.11.8.html下载对应安装包。 + +下载页面的底部点击如下所示红框处即可下载。 +![](/api/attachments/458970) + +解压配置环境变量,在DOC命令行窗口输入scala出现下图所示即表示已经安装成功。 + +![](/api/attachments/459087) + +### 1.4.4 spark安装 +到`Spark`官网:下载地址 下载 +`Hadoop`版本为`2.7`,`Spark`版本为`2.3.4`的`spark`安装包。 + +解压配置环境变量,在DOC命令行窗口输入spark-shell出现下图所示即表示已经安装成功(图示报错不影响spark运行,该报错表示未安装hadoop)。 + +![](/api/attachments/459186) + + +### pycharm环境安装 +打开pycharm,创建一个项目,如下图; + +![](/api/attachments/459196) + +添加pyspark.zip和py4j包到项目中(这两个文件在spark安装目录\python\lib中) + + +点击 file >> setting >> Project:pspark >> Project Structure + + + +![](/api/attachments/459207) + +新建一个python文件,执行以下代码,输出了你的spark版本无报错即安装成功了。 +``` +from pyspark.sql import SparkSession + +spark = SparkSession \ + .builder \ + .appName("Python Spark SQL basic example") \ + .config("spark.some.config.option", "some-value") \ + .getOrCreate() + +print(spark.version) +``` + +