慢慢 6 years ago
parent 3e4b7e0884
commit a48d8a2156

@ -1,7 +1,7 @@
## 2.1 Spark SQL入门
`Spark SQL`是`Spark`用来处理结构化数据的一个模块。`Spark SQL`为了支持结构化数据的处理,它提供了两个编程抽象分别叫做`DataFrame`和`DataSet`。
`Spark SQL`是`Spark`用来处理结构化数据的一个模块。`Spark SQL`为了支持结构化数据的处理,它提供了两个编程抽象分别叫做`DataFrames`和`DataSets`。
### 2.1.1 DataFramesDatasets和RDD的关系
@ -10,7 +10,7 @@
`DataFrames`:由于`RDD`的局限性,`Spark`产生了`DataFrames``DataFrame=RDD+Schema``Schema`也就是字段信息。`DataFrames`是一种特殊类型的 `Datasets``DataSet[Row] = DataFrame`。
`Datasets`:可以理解为强类型的`DataFrames`,但是`Python`不支持`Datasets API`。
`Datasets`:可以理解为强类型的`DataFrames`也就是说每一个`record`存储的是一个强类型值而不是一个`Row`。但是`Python`不支持`Datasets API`。

Loading…
Cancel
Save