diff --git a/chapter2/2.1SparkSQL入门.md b/chapter2/2.1SparkSQL入门.md index d42f953..d79f311 100644 --- a/chapter2/2.1SparkSQL入门.md +++ b/chapter2/2.1SparkSQL入门.md @@ -7,10 +7,14 @@ ### 2.1.1 DataFrame,Dataset和RDD的关系 `RDD` :仅表示数据集,`RDD`没有元数据,也就是说没有字段信息。 + `DataFrame`:由于`RDD`的局限性,`Spark`产生了`DataFrame`,`DataFrame=RDD+Schema`,`Schema`也就是字段信息。`DataFrame`是一种特殊类型的 `Dataset`,`DataSet[Row] = DataFrame`。 + `Dataset`:可以理解为强类型的`DataFrame`,但是`Python`不支持`Dataset API`。 + + 了解完以上关系后,我们开始编写`Spark SQL`,从何开始呢?答案就是`SparkSession`。 ### 2.1.2 什么是SparkSession