@ -7,10 +7,14 @@
### 2.1.1 DataFrame,Dataset和RDD的关系
`RDD` :仅表示数据集,`RDD`没有元数据,也就是说没有字段信息。
`DataFrame`:由于`RDD`的局限性,`Spark`产生了`DataFrame`,`DataFrame=RDD+Schema`,`Schema`也就是字段信息。`DataFrame`是一种特殊类型的 `Dataset`,`DataSet[Row] = DataFrame`。
`Dataset`:可以理解为强类型的`DataFrame`,但是`Python`不支持`Dataset API`。
了解完以上关系后,我们开始编写`Spark SQL`,从何开始呢?答案就是`SparkSession`。
### 2.1.2 什么是SparkSession