s

6 years ago · 03b1d1b662
parent 98dc381ef7
commit 03b1d1b662
1 changed files with 4 additions and 0 deletions
--- a/chapter2/2.1SparkSQL入门.md
+++ b/chapter2/2.1SparkSQL入门.md
@ -7,10 +7,14 @@
 ### 2.1.1 DataFrame，Dataset和RDD的关系
 `RDD` ：仅表示数据集，`RDD`没有元数据，也就是说没有字段信息。
 `DataFrame`：由于`RDD`的局限性，`Spark`产生了`DataFrame`，`DataFrame=RDD+Schema`，`Schema`也就是字段信息。`DataFrame`是一种特殊类型的 `Dataset`，`DataSet[Row] = DataFrame`。
 `Dataset`：可以理解为强类型的`DataFrame`，但是`Python`不支持`Dataset API`。
 了解完以上关系后，我们开始编写`Spark SQL`，从何开始呢？答案就是`SparkSession`。
 ### 2.1.2 什么是SparkSession