慢慢 6 years ago
parent ee31cdf85a
commit 50bf024855

@ -3,51 +3,81 @@
### 1.4.1 JDK安装
在DOC命令行窗口输入java -version出现下图所示即表示已经安装成功。如未安装成功请自行百度。本教程所使用的spark版本需要使用jdk1.8版本以上。
![](/api/attachments/458936)
<p align="center" >
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/458936" alt="" height="100%" width="100%" />
</p>
### 1.4.2 Python安装
在DOC命令行窗口输入python出现下图所示即表示已经安装成功。如未安装成功请自行百度。本教程所使用的python版本需要使用python2.7版本以上。
![](/api/attachments/458940)
<p align="center" >
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/458940" alt="" height="100%" width="100%" />
</p>
### 1.4.3 scala安装
本教程所使用的python版本推荐使用scala2.11.x版本。
打开官网https://www.scala-lang.org/download/2.11.8.html下载对应安装包。
打开官网<a href="https://www.scala-lang.org/download/2.11.8.html" target="view_frame">下载地址 </a>下载对应安装包。
下载页面的底部点击如下所示红框处即可下载。
![](/api/attachments/458970)
<p align="center" >
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/458970" alt="" height="100%" width="100%" />
</p>
解压配置环境变量在DOC命令行窗口输入scala出现下图所示即表示已经安装成功。
![](/api/attachments/459087)
<p align="center" >
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/459087" alt="" height="100%" width="100%" />
</p>
### 1.4.4 spark安装
到`Spark`官网:<a href="https://archive.apache.org/dist/spark/spark-2.3.4/" target="view_frame">下载地址 </a> 下载
`Hadoop`版本为`2.7``Spark`版本为`2.3.4`的`spark`安装包。
解压配置环境变量在DOC命令行窗口输入spark-shell出现下图所示即表示已经安装成功(图示报错不影响spark运行该报错表示未安装hadoop)。
![](/api/attachments/459186)
<p align="center" >
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/459186" alt="" height="100%" width="100%" />
</p>
### pycharm环境安装
打开pycharm创建一个项目如下图
![](/api/attachments/459196)
1.打开pycharm创建一个项目如下图
<p align="center" >
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/459196" alt="" height="100%" width="100%" />
</p>
2.添加pyspark.zip和py4j包到项目中这两个文件在spark安装目录\python\lib中
添加pyspark.zip和py4j包到项目中这两个文件在spark安装目录\python\lib中
依次点击 file >> setting >> Project:pspark >> Project Structure
点击 file >> setting >> Project:pspark >> Project Structure
<p align="center" >
<img style="border: 2px solid #ddd;padding: 5px; background: #fff;" src="https://www.educoder.net/api/attachments/459207" alt="" height="100%" width="100%" />
</p>
![](/api/attachments/459207)
3.新建一个python文件执行以下代码输出了你的spark版本无报错即安装成功了。
新建一个python文件执行以下代码输出了你的spark版本无报错即安装成功了。
```
from pyspark.sql import SparkSession

@ -3,7 +3,7 @@
在大数据领域,统计分析处理结构化数据可以使用`Hive`等工具,但是`Hive`依赖的`MapReduce`计算过程中大量的中间磁盘落地过程消耗了大量的`I/O`,运行效率较低。恰好,基于内存计算的`Spark SQL`解决了这些问题。
`Spark SQL`支持`Java`、`Scala`和`Python`语言,其中使用`Scala`开发是主流,但是本教程为顺应特殊需求,我们使用`Python`。
`Spark SQL`支持`Java`、`Scala`和`Python`语言,其中使用`Scala`开发是主流,但是本教程我们使用`Python`来开发`Spark SQL`。

Loading…
Cancel
Save