|
|
@ -7,10 +7,14 @@
|
|
|
|
### 2.1.1 DataFrame,Dataset和RDD的关系
|
|
|
|
### 2.1.1 DataFrame,Dataset和RDD的关系
|
|
|
|
|
|
|
|
|
|
|
|
`RDD` :仅表示数据集,`RDD`没有元数据,也就是说没有字段信息。
|
|
|
|
`RDD` :仅表示数据集,`RDD`没有元数据,也就是说没有字段信息。
|
|
|
|
|
|
|
|
|
|
|
|
`DataFrame`:由于`RDD`的局限性,`Spark`产生了`DataFrame`,`DataFrame=RDD+Schema`,`Schema`也就是字段信息。`DataFrame`是一种特殊类型的 `Dataset`,`DataSet[Row] = DataFrame`。
|
|
|
|
`DataFrame`:由于`RDD`的局限性,`Spark`产生了`DataFrame`,`DataFrame=RDD+Schema`,`Schema`也就是字段信息。`DataFrame`是一种特殊类型的 `Dataset`,`DataSet[Row] = DataFrame`。
|
|
|
|
|
|
|
|
|
|
|
|
`Dataset`:可以理解为强类型的`DataFrame`,但是`Python`不支持`Dataset API`。
|
|
|
|
`Dataset`:可以理解为强类型的`DataFrame`,但是`Python`不支持`Dataset API`。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
了解完以上关系后,我们开始编写`Spark SQL`,从何开始呢?答案就是`SparkSession`。
|
|
|
|
了解完以上关系后,我们开始编写`Spark SQL`,从何开始呢?答案就是`SparkSession`。
|
|
|
|
### 2.1.2 什么是SparkSession
|
|
|
|
### 2.1.2 什么是SparkSession
|
|
|
|
|
|
|
|
|
|
|
|