Go to file

慢慢 78beb200f5 Merge branch 'master' of http://bdgit.educoder.net/p43182670/prply92i3		6 years ago
chapter1	tt	6 years ago
chapter2	gs	6 years ago
chapter3	定义章节列表	6 years ago
chapter4	chapter4	6 years ago
chapter5	机器学习内容补充	6 years ago
image	chapter4	6 years ago
README.md	修改	6 years ago
SUMMARY.md	，	6 years ago

README.md

Unescape Escape

前言

随着大数据时代的到来，各行各业的工作者都迫切需要更好更快的数据计算与分析工具，2009年，Spark应运而生，在很短的时间里就崭露头角，受到了业界的广泛肯定与欢迎，如今已是Apache软件基金会会下的顶级开源项目之一。相较于曾经引爆大数据产业革命的Hadoop MapReduce框架，Spark带来的改进更加令人欢欣鼓舞。首先，基于内存计算的Spark速度更快，减少了迭代计算时的IO开销，而且支持交互性使用，其次。Spark丰富的API提供了更强大的易用性，它支持使用Scala、Java、Python与R语言进行编程，有助于开发者轻松构建并行的应用程序。而且，Spark支持多种运行模式，既可以运行于独立的集群模式或Hadoop集群模式中，也可以运行在云星宇Amazon EC2等云环境中。

Apache Spark是用于大规模数据处理的统一分析引擎，Spark使用Scala语言进行实现，它是一种面向对象、函数式编程语言，能够像操作本地集合对象一样轻松地操作分布式数据集，它具有运行速度快、易用性好、通用性强和随处运行等特点。

它有如下几个特点：

运行速度快 Apache Spark使用最先进的DAG调度程序，查询优化器和物理执行引擎，为批处理数据和流数据提供了高性能。
使用方便可以使用Java，Scala，Python，R和SQL等语言快速编写应用程序。 Spark提供了80多个高级操作员，可轻松构建并行应用程序。也可以从Scala，Python，R和SQL Shell 交互使用它。
支持多种开发场景 Spark技术栈包括：SparkSQL 、 DataFrames、Spark MLlib for machine learning, GraphX 以及 Spark Streaming。

4. 可运行在多种环境 Spark可在HadoopApache MesosKubernetes独立或云中运行。它可以访问各种数据源。

README.md Unescape Escape

前言

README.md

Unescape Escape