From 03b1d1b662fb424726acb70a897d4bc93178715d Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E6=85=A2=E6=85=A2?= <905907915@qq.com> Date: Wed, 6 Nov 2019 16:56:01 +0800 Subject: [PATCH] s --- chapter2/2.1SparkSQL入门.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/chapter2/2.1SparkSQL入门.md b/chapter2/2.1SparkSQL入门.md index d42f953..d79f311 100644 --- a/chapter2/2.1SparkSQL入门.md +++ b/chapter2/2.1SparkSQL入门.md @@ -7,10 +7,14 @@ ### 2.1.1 DataFrame,Dataset和RDD的关系 `RDD` :仅表示数据集,`RDD`没有元数据,也就是说没有字段信息。 + `DataFrame`:由于`RDD`的局限性,`Spark`产生了`DataFrame`,`DataFrame=RDD+Schema`,`Schema`也就是字段信息。`DataFrame`是一种特殊类型的 `Dataset`,`DataSet[Row] = DataFrame`。 + `Dataset`:可以理解为强类型的`DataFrame`,但是`Python`不支持`Dataset API`。 + + 了解完以上关系后,我们开始编写`Spark SQL`,从何开始呢?答案就是`SparkSession`。 ### 2.1.2 什么是SparkSession