diff --git a/SUMMARY.md b/SUMMARY.md index 55898c5..361834b 100644 --- a/SUMMARY.md +++ b/SUMMARY.md @@ -9,7 +9,7 @@ * [2.1SparkSQL入门](/chapter2/2.1SparkSQL入门.md) * [2.2 Spark SQL对战斗机飞行性能进行分析](/chapter2/2.2对战斗机飞行性能进行分析.md) - * [2.3 Spark SQL对战斗机飞行性能进行分析](/chapter2/2.3对战斗机飞行性能进行分析.md) + * [2.3 Spark SQL统计各个研发单位研制战斗机占比](/chapter2/2.3统计各个研发单位研制战斗机占比.md) * [第三章 SparkStreaming流数据计算与分析](/chapter3/3流数据计算与分析简介.md) diff --git a/chapter2/2.2对战斗机飞行性能进行分析.md b/chapter2/2.2对战斗机飞行性能进行分析.md index 0f6d3ef..a79951c 100644 --- a/chapter2/2.2对战斗机飞行性能进行分析.md +++ b/chapter2/2.2对战斗机飞行性能进行分析.md @@ -9,15 +9,15 @@ 每条`json`数据里可能有不同数量的成员,成员的值可能为空。 -### 2.1.2 统计指标说明 +### 2.2.2 统计指标说明 统计出全球飞行速度排名前三的战斗机。 -### 2.1.3 结果数据保存 +### 2.2.3 结果数据保存 统计出指标后将结果以`json`格式保存到本地目录。 -### 2.1.4处理步骤 +### 2.2.4处理步骤 1.创建`SparkSession`; ``` @@ -31,20 +31,36 @@ spark = SparkSession \ ``` 2.读取所给`json`数据创建`DataFrame`; + `df =spark.read.json("/jun.json")` 3.创建视图; + `df.createOrReplaceTempView("table1")` 4.编写`sql`语句计算指标; + `sqlDF = spark.sql("sql语句")` 5.将处理结果保存到本地目录; + `sqlDF.write.format("json").save("保存路径")` 6.停止`SparkSession`。 + `spark.stop()` + ### 2.2.5 效果展示: + + 在保存路径我们打开处理后的文件,可以看到我们统计出的飞行速度前三的战斗机; + +

+ +

+ + + + diff --git a/chapter2/2.3统计各个研发单位研制战斗机占比.md b/chapter2/2.3统计各个研发单位研制战斗机占比.md index 47aa18e..53e409b 100644 --- a/chapter2/2.3统计各个研发单位研制战斗机占比.md +++ b/chapter2/2.3统计各个研发单位研制战斗机占比.md @@ -19,4 +19,14 @@ ### 2.3.4处理步骤 -同上小节步骤 \ No newline at end of file +同上小节步骤 + + ### 2.3.5 效果展示: + + 在保存目录我们打开处理后的文件,可以看到我们统计出的各个研发单位研制战斗机占比; + +

+ +

+ +