|
|
6 years ago | |
|---|---|---|
| chapter1 | 6 years ago | |
| chapter2 | 6 years ago | |
| chapter3 | 6 years ago | |
| chapter4 | 6 years ago | |
| chapter5 | 6 years ago | |
| image | 6 years ago | |
| README.md | 6 years ago | |
| SUMMARY.md | 6 years ago | |
| Untitled-1.python | 6 years ago | |
README.md
前言
随着大数据时代的到来,各行各业的工作者都迫切需要更好更快的数据计算与分析工具,2009年,Spark应运而生,在很短的时间里就崭露头角,受到了业界的广泛肯定与欢迎,如今已是Apache软件基金会会下的顶级开源项目之一。相较于曾经引爆大数据产业革命的Hadoop MapReduce框架,Spark带来的改进更加令人欢欣鼓舞。首先,基于内存计算的Spark速度更快,减少了迭代计算时的IO开销,而且支持交互性使用,其次。Spark丰富的API提供了更强大的易用性,它支持使用Scala、Java、Python与R语言进行编程,有助于开发者轻松构建并行的应用程序。而且,Spark支持多种运行模式,既可以运行于独立的集群模式或Hadoop集群模式中,也可以运行在云星宇Amazon EC2等云环境中。
Apache Spark是用于大规模数据处理的统一分析引擎,Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,它具有运行速度快、易用性好、通用性强和随处运行等特点。
它有如下几个特点:
-
运行速度快 Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能。
-
使用方便 可以使用Java,Scala,Python,R和SQL等语言快速编写应用程序。 Spark提供了80多个高级操作员,可轻松构建并行应用程序。也可以从Scala,Python,R和SQL Shell 交互使用它。
-
支持多种开发场景 Spark技术栈包括:SparkSQL 、 DataFrames、Spark MLlib for machine learning, GraphX 以及 Spark Streaming。