|
|
|
@ -1,7 +1,7 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 2.1 Spark SQL入门
|
|
|
|
|
`Spark SQL`是`Spark`用来处理结构化数据的一个模块。`Spark SQL`为了支持结构化数据的处理,它提供了两个编程抽象分别叫做`DataFrame`和`DataSet`。
|
|
|
|
|
`Spark SQL`是`Spark`用来处理结构化数据的一个模块。`Spark SQL`为了支持结构化数据的处理,它提供了两个编程抽象分别叫做`DataFrames`和`DataSets`。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### 2.1.1 DataFrames,Datasets和RDD的关系
|
|
|
|
@ -10,7 +10,7 @@
|
|
|
|
|
|
|
|
|
|
`DataFrames`:由于`RDD`的局限性,`Spark`产生了`DataFrames`,`DataFrame=RDD+Schema`,`Schema`也就是字段信息。`DataFrames`是一种特殊类型的 `Datasets`,`DataSet[Row] = DataFrame`。
|
|
|
|
|
|
|
|
|
|
`Datasets`:可以理解为强类型的`DataFrames`,但是`Python`不支持`Datasets API`。
|
|
|
|
|
`Datasets`:可以理解为强类型的`DataFrames`,也就是说每一个`record`存储的是一个强类型值而不是一个`Row`。但是`Python`不支持`Datasets API`。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|