You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
慢慢 78beb200f5
Merge branch 'master' of http://bdgit.educoder.net/p43182670/prply92i3
6 years ago
chapter1 tt 6 years ago
chapter2 gs 6 years ago
chapter3 定义章节列表 6 years ago
chapter4 chapter4 6 years ago
chapter5 机器学习内容补充 6 years ago
image chapter4 6 years ago
README.md 修改 6 years ago
SUMMARY.md 6 years ago

README.md

前言

随着大数据时代的到来,各行各业的工作者都迫切需要更好更快的数据计算与分析工具,2009年,Spark应运而生,在很短的时间里就崭露头角,受到了业界的广泛肯定与欢迎,如今已是Apache软件基金会会下的顶级开源项目之一。相较于曾经引爆大数据产业革命的Hadoop MapReduce框架,Spark带来的改进更加令人欢欣鼓舞。首先,基于内存计算的Spark速度更快,减少了迭代计算时的IO开销,而且支持交互性使用,其次。Spark丰富的API提供了更强大的易用性,它支持使用ScalaJavaPythonR语言进行编程,有助于开发者轻松构建并行的应用程序。而且,Spark支持多种运行模式,既可以运行于独立的集群模式或Hadoop集群模式中,也可以运行在云星宇Amazon EC2等云环境中。

Apache Spark是用于大规模数据处理的统一分析引擎Spark使用Scala语言进行实现它是一种面向对象、函数式编程语言能够像操作本地集合对象一样轻松地操作分布式数据集它具有运行速度快、易用性好、通用性强和随处运行等特点。

它有如下几个特点:

  1. 运行速度快 Apache Spark使用最先进的DAG调度程序查询优化器和物理执行引擎为批处理数据和流数据提供了高性能。

  2. 使用方便 可以使用JavaScalaPythonR和SQL等语言快速编写应用程序。 Spark提供了80多个高级操作员可轻松构建并行应用程序。也可以从ScalaPythonR和SQL Shell 交互使用它。

  3. 支持多种开发场景 Spark技术栈包括SparkSQL 、 DataFrames、Spark MLlib for machine learning, GraphX 以及 Spark Streaming。

4. 可运行在多种环境 Spark可在HadoopApache MesosKubernetes独立或云中运行。它可以访问各种数据源。