|
6 years ago | |
---|---|---|
chapter1 | 6 years ago | |
chapter2 | 6 years ago | |
chapter3 | 6 years ago | |
chapter4 | 6 years ago | |
chapter5 | 6 years ago | |
image | 6 years ago | |
README.md | 6 years ago | |
SUMMARY.md | 6 years ago |
README.md
前言
随着大数据时代的到来,各行各业的工作者都迫切需要更好更快的数据计算与分析工具,2009
年,Spark
应运而生,在很短的时间里就崭露头角,受到了业界的广泛肯定与欢迎,如今已是Apache
软件基金会会下的顶级开源项目之一。相较于曾经引爆大数据产业革命的Hadoop MapReduce
框架,Spark
带来的改进更加令人欢欣鼓舞。首先,基于内存计算的Spark
速度更快,减少了迭代计算时的IO
开销,而且支持交互性使用,其次。Spark
丰富的API
提供了更强大的易用性,它支持使用Scala
、Java
、Python
与R
语言进行编程,有助于开发者轻松构建并行的应用程序。而且,Spark
支持多种运行模式,既可以运行于独立的集群模式或Hadoop
集群模式中,也可以运行在云星宇Amazon EC2
等云环境中。
Apache Spark是用于大规模数据处理的统一分析引擎,Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,它具有运行速度快、易用性好、通用性强和随处运行等特点。
它有如下几个特点:
-
运行速度快 Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能。
-
使用方便 可以使用Java,Scala,Python,R和SQL等语言快速编写应用程序。 Spark提供了80多个高级操作员,可轻松构建并行应用程序。也可以从Scala,Python,R和SQL Shell 交互使用它。
-
支持多种开发场景 Spark技术栈包括:SparkSQL 、 DataFrames、Spark MLlib for machine learning, GraphX 以及 Spark Streaming。