From 084c72f4e0a4a6d4a1c40246e464e63375ffce1e Mon Sep 17 00:00:00 2001 From: xlc <631948983#qq.com> Date: Tue, 5 Nov 2019 10:09:01 +0800 Subject: [PATCH] =?UTF-8?q?=E6=B7=BB=E5=8A=A0=E7=AC=AC=E4=B8=80=E7=AB=A0?= =?UTF-8?q?=E5=86=85=E5=AE=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 23 +++- SUMMARY.md | 7 +- chapter1/1.1Scala环境搭建.md | 61 ++++++++++ chapter1/1.2Spark单机版环境搭建.md | 114 ++++++++++++++++++ .../1.2Spark完全分布式环境搭建.md | 0 ...=> 1.3Spark完全分布式环境搭建.md} | 0 chapter1/1Spark安装简介.md | 14 +++ chapter1/1Spark简介.md | 0 image/frame.png | Bin 0 -> 88483 bytes image/stack.png | Bin 0 -> 20310 bytes 10 files changed, 215 insertions(+), 4 deletions(-) create mode 100644 chapter1/1.1Scala环境搭建.md create mode 100644 chapter1/1.2Spark单机版环境搭建.md delete mode 100644 chapter1/1.2Spark完全分布式环境搭建.md rename chapter1/{1.1Spark单机版环境搭建.md => 1.3Spark完全分布式环境搭建.md} (100%) create mode 100644 chapter1/1Spark安装简介.md delete mode 100644 chapter1/1Spark简介.md create mode 100644 image/frame.png create mode 100644 image/stack.png diff --git a/README.md b/README.md index 3d07efe..20aaa60 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,23 @@ -# Introduction +# 前言 + +随着大数据时代的到来,各行各业的工作者都迫切需要更好更快的数据计算与分析工具,`2009`年,`Spark`应运而生,在很短的时间里就崭露头角,受到了业界的广泛肯定与欢迎,如今已是`Apache`软件基金会会下的顶级开源项目之一。相较于曾经引爆大数据产业革命的`Hadoop MapReduce`框架,`Spark`带来的改进更加令人欢欣鼓舞。首先,基于内存计算的`Spark`速度更快,减少了迭代计算时的`IO`开销,而且支持交互性使用,其次。`Spark`丰富的`API`提供了更强大的易用性,它支持使用`Scala`、`Java`、`Python`与`R`语言进行编程,有助于开发者轻松构建并行的应用程序。而且,`Spark`支持多种运行模式,既可以运行于独立的集群模式或`Hadoop`集群模式中,也可以运行在云星宇`Amazon EC2`等云环境中。 + + +Apache Spark是用于大规模数据处理的统一分析引擎,Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,它具有运行速度快、易用性好、通用性强和随处运行等特点。 + +它有如下几个特点: + +1. 运行速度快 +Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能。 + +2. 使用方便 +可以使用Java,Scala,Python,R和SQL等语言快速编写应用程序。 +Spark提供了80多个高级操作员,可轻松构建并行应用程序。也可以从Scala,Python,R和SQL Shell 交互使用它。 +3. 支持多种开发场景 +Spark技术栈包括:SparkSQL 、 DataFrames、Spark MLlib for machine learning, GraphX 以及 Spark Streaming。 + + +4. 可运行在多种环境 +Spark可在Hadoop,Apache Mesos,Kubernetes,独立或云中运行。它可以访问各种数据源。 + diff --git a/SUMMARY.md b/SUMMARY.md index 56aa14f..03cd6be 100644 --- a/SUMMARY.md +++ b/SUMMARY.md @@ -1,9 +1,10 @@ # 大数据分析(Spark) * [项目简介](README.md) -* [第一章 Spark环境搭建和使用方法](/chapter1/1Spark简介.md) - * [1.1 Spark单机版环境搭建](/chapter1/1.1Spark单机版环境搭建.md) - * [1.2 Spark完全分布式环境搭建](/chapter1/1.2Spark完全分布式环境搭建.md) +* [第一章 Spark环境搭建和使用方法](/chapter1/1Spark安装简介.md) + * [1.1 Scala环境搭建](/chapter1/1.1Scala环境搭建.md) + * [1.2 Spark单机版环境搭建](/chapter1/1.2Spark单机版环境搭建.md) + * [1.3 Spark完全分布式环境搭建](/chapter1/1.2Spark完全分布式环境搭建.md) * [第二章 Spark结构化数据分析与处理](/chapter2/2结构化数据分析与处理简介.md) * [2.1 SparkSQL统计各个研发单位研制战斗机占比](/chapter2/2.1统计各个研发单位研制战斗机占比.md) * [2.2 SparkSQL对战斗机飞行性能进行分析](/chapter2/2.2对战斗机飞行性能进行分析.md) diff --git a/chapter1/1.1Scala环境搭建.md b/chapter1/1.1Scala环境搭建.md new file mode 100644 index 0000000..7906967 --- /dev/null +++ b/chapter1/1.1Scala环境搭建.md @@ -0,0 +1,61 @@ +## 1.1 Scala开发环境搭建 + + +`Scala`是一种函数式面向对象语言,它融汇了许多前所未有的特性,而同时又运行于`JVM`之上。随着开发者对`Scala`的兴趣日增,以及越来越多的工具支持,无疑`Scala`语言将成为你手上一件必不可少的工具。 + +而我们将要学习的大数据框架`Spark`底层是使用`Scala`开发的,使用`scala`写出的代码长度是使用`java`写出的代码长度的`1/10`左右,代码实现更加简练。 + +所以安装与配置`Scala`的环境是我们在开始学习`Spark`之前要完成的准备工作。 + +接下来我们开始安装,分为三个步骤: + +1. 下载解压; +2. 配置环境; +3. 校验。 + + + +### 1.1.1 下载解压 + +在[Scala官网](https://www.scala-lang.org/download/)根据平台选择下载`Scala`的安装包, +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
|S*lG71@Bwuj;80^* zkR8XB)wH0gUP}@vU6+l{(yXfn8!J}~Inv^iGJ@JpGoq(Wq)4W3Jv;Q9b(!2dgzmlc z-xABDprUo6&%?s1WZ7IXH*Y+)+}gIT9#F5;!8y~GU~KH$*v}R$x=c6>h+bK^CR0Z@ z%H_Wmem^`sxZi%?Gi+K3^nu$WY-ngGsjR%Ai7 )?9ha541l@kO=!S{_90|1FgMQObLNrf$Hm3@CCy N|)_=ms}V&3=2b61uvo>o74*Lj(7YI%=pu_8pey{0Rag5@PM=D|6sX7{JE @CE-p`xVnyD}A$J?iV~SnQs8GCU4VuMeC}#rX7?aDWGQINub-#KOw0od$9Z zQuPAdL5(Lh3v99+XvkpTm5q%}C!@Tm2p_0qZojY(#u@Kx1!+}k2t18D1IqXDRIwZw z7f2RRZ>S$8LNt>=*A*D?Je!r=5W3K*5!9mpp4!Mz;a#o(8Bp!|yz=7wUHARP4wi4W zFG>3ojXsc+Y(F(^wVibiHQM@$V0v$6j5&4N>KD8*O#r2Vikenf;fHVAbF+#AFgUt? z ^rE2dCSu=4oAvE`+247dZtcUCyH!JekMo%&ZsY` zp*=r4?_WO`MH!U1_6jg2E&)gk0B966BDmrbrj)pWdErxgH`~z*8xqy}c+y_zsDtyB zD>atW 1o>VilqAR4Ul|c%a%tO3x;vU<*clxw!Nqm zWv2tidR9;-ZyvndU!u8dZI4LeC?6J5Z0^g$GMKpV4#S`=*Ek&>3Q(QBU9cdb=2Sdb z{3}TRHVbG;Wvex9zHesqSv72TF+bzHd0)V2C);@j0De6F {aas~M+s?C0 zaB}}#|8?>4iEH)ig3a~GN|W@mwuVN?q;NXmimN#*a(dyEvJQNi_r~j9&kuWwtKN5O zdQ1ZE>FHU%oUYuPtdQ7hG$hv#(@;}FW61(yI^x6#m>7HA+|1aQYYy$=YB}31QYcw2 zI6hx$JK}xSy>&c%tkit4Qoi{SqWgzezfo;Ce+VJj09x1Va4`@#)0JGo>&<~yB8A6% zczpCYNn0aKNXJ~Pl*5|^}awffuNhC zg)dKcFZX@1&3mVw7h}vvruJ il2MmZJf&5uV@8MNe%A0EzQ+@wXn5l}1skWw}EJ zj}9Trq}U}>4N`Nz`+Ii@Nhug_->u%@`%7N~`r-2Y-YFyTiz#um#!-d}5)VFD-8