diff --git a/chapter2/2.1SparkSQL入门.md b/chapter2/2.1SparkSQL入门.md index b1a3d90..7224072 100644 --- a/chapter2/2.1SparkSQL入门.md +++ b/chapter2/2.1SparkSQL入门.md @@ -1,7 +1,7 @@ ## 2.1 Spark SQL入门 -`Spark SQL`是`Spark`用来处理结构化数据的一个模块。`Spark SQL`为了支持结构化数据的处理,它提供了两个编程抽象分别叫做`DataFrame`和`DataSet`。 +`Spark SQL`是`Spark`用来处理结构化数据的一个模块。`Spark SQL`为了支持结构化数据的处理,它提供了两个编程抽象分别叫做`DataFrames`和`DataSets`。 ### 2.1.1 DataFrames,Datasets和RDD的关系 @@ -10,7 +10,7 @@ `DataFrames`:由于`RDD`的局限性,`Spark`产生了`DataFrames`,`DataFrame=RDD+Schema`,`Schema`也就是字段信息。`DataFrames`是一种特殊类型的 `Datasets`,`DataSet[Row] = DataFrame`。 -`Datasets`:可以理解为强类型的`DataFrames`,但是`Python`不支持`Datasets API`。 +`Datasets`:可以理解为强类型的`DataFrames`,也就是说每一个`record`存储的是一个强类型值而不是一个`Row`。但是`Python`不支持`Datasets API`。