gs

6 years ago · a48d8a2156
parent 3e4b7e0884
commit a48d8a2156
1 changed files with 2 additions and 2 deletions
--- a/chapter2/2.1SparkSQL入门.md
+++ b/chapter2/2.1SparkSQL入门.md
@ -1,7 +1,7 @@


 ## 2.1 Spark SQL入门
-`Spark SQL`是`Spark`用来处理结构化数据的一个模块。`Spark SQL`为了支持结构化数据的处理，它提供了两个编程抽象分别叫做`DataFrame`和`DataSet`。
+`Spark SQL`是`Spark`用来处理结构化数据的一个模块。`Spark SQL`为了支持结构化数据的处理，它提供了两个编程抽象分别叫做`DataFrames`和`DataSets`。


 ### 2.1.1 DataFrames，Datasets和RDD的关系
@ -10,7 +10,7 @@

 `DataFrames`：由于`RDD`的局限性，`Spark`产生了`DataFrames`，`DataFrame=RDD+Schema`，`Schema`也就是字段信息。`DataFrames`是一种特殊类型的 `Datasets`，`DataSet[Row] = DataFrame`。

-`Datasets`：可以理解为强类型的`DataFrames`，但是`Python`不支持`Datasets API`。
+`Datasets`：可以理解为强类型的`DataFrames`，也就是说每一个`record`存储的是一个强类型值而不是一个`Row`。但是`Python`不支持`Datasets API`。