diff --git a/chapter1/1.4Windows+Pycharm搭建Python版Spark开发环境.md b/chapter1/1.4Windows+Pycharm搭建Python版Spark开发环境.md index 6151803..908776a 100644 --- a/chapter1/1.4Windows+Pycharm搭建Python版Spark开发环境.md +++ b/chapter1/1.4Windows+Pycharm搭建Python版Spark开发环境.md @@ -3,51 +3,81 @@ ### 1.4.1 JDK安装 在DOC命令行窗口输入java -version出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的spark版本需要使用jdk1.8版本以上。 -![](/api/attachments/458936) + +

+ +

+ + ### 1.4.2 Python安装 在DOC命令行窗口输入python出现下图所示即表示已经安装成功。如未安装成功,请自行百度。本教程所使用的python版本需要使用python2.7版本以上。 -![](/api/attachments/458940) +

+ +

+ + ### 1.4.3 scala安装 本教程所使用的python版本推荐使用scala2.11.x版本。 - -打开官网https://www.scala-lang.org/download/2.11.8.html下载对应安装包。 +打开官网下载地址 下载对应安装包。 下载页面的底部点击如下所示红框处即可下载。 -![](/api/attachments/458970) + +

+ +

+ + 解压配置环境变量,在DOC命令行窗口输入scala出现下图所示即表示已经安装成功。 -![](/api/attachments/459087) +

+ +

+ + ### 1.4.4 spark安装 + 到`Spark`官网:下载地址 下载 `Hadoop`版本为`2.7`,`Spark`版本为`2.3.4`的`spark`安装包。 解压配置环境变量,在DOC命令行窗口输入spark-shell出现下图所示即表示已经安装成功(图示报错不影响spark运行,该报错表示未安装hadoop)。 -![](/api/attachments/459186) +

+ +

+ + ### pycharm环境安装 -打开pycharm,创建一个项目,如下图; -![](/api/attachments/459196) +1.打开pycharm,创建一个项目,如下图; + +

+ +

+ + + +2.添加pyspark.zip和py4j包到项目中(这两个文件在spark安装目录\python\lib中) -添加pyspark.zip和py4j包到项目中(这两个文件在spark安装目录\python\lib中) +依次点击 file >> setting >> Project:pspark >> Project Structure -点击 file >> setting >> Project:pspark >> Project Structure +

+ +

-![](/api/attachments/459207) +3.新建一个python文件,执行以下代码,输出了你的spark版本无报错即安装成功了。 -新建一个python文件,执行以下代码,输出了你的spark版本无报错即安装成功了。 ``` from pyspark.sql import SparkSession diff --git a/chapter2/2结构化数据分析与处理简介.md b/chapter2/2结构化数据分析与处理简介.md index 0228fc6..9b9e291 100644 --- a/chapter2/2结构化数据分析与处理简介.md +++ b/chapter2/2结构化数据分析与处理简介.md @@ -3,7 +3,7 @@ 在大数据领域,统计分析处理结构化数据可以使用`Hive`等工具,但是`Hive`依赖的`MapReduce`计算过程中大量的中间磁盘落地过程消耗了大量的`I/O`,运行效率较低。恰好,基于内存计算的`Spark SQL`解决了这些问题。 -`Spark SQL`支持`Java`、`Scala`和`Python`语言,其中使用`Scala`开发是主流,但是本教程为顺应特殊需求,我们使用`Python`。 +`Spark SQL`支持`Java`、`Scala`和`Python`语言,其中使用`Scala`开发是主流,但是本教程我们使用`Python`来开发`Spark SQL`。