修改图片

6 years ago · 652b4a8370
parent bb3034dc02
commit 652b4a8370
1 changed files with 7 additions and 3 deletions
--- a/chapter5/5.1Spark机器学习入门.md
+++ b/chapter5/5.1Spark机器学习入门.md
@ -12,7 +12,8 @@

 可以看出机器学习强调三个关键词：算法、经验、性能，其处理过程如下图所示。

-![](https://www.educoder.net/api/attachments/457570)
+![](https://www.educoder.net/api/attachments/462336)
+

 上图表明机器学习是数据通过算法构建出模型并对模型进行评估，评估的性能如果达到要求就拿这个模型来测试其他的数据，如果达不到要求就要调整算法来重新建立模型，再次进行评估，如此循环往复，最终获得满意的经验来处理其他的数据。

@ -24,7 +25,8 @@
 分类和回归，都是先根据标签值或目标值建立模型或规则，然后利用这些带有目标值 的数据形成的模型或规则 ，对新数据进行识别或预测。这两种方法都属于监督学习。与监督学习相对的
 是无监督学习，无监督学习不指定目标值或预先无法知道目标值，它可以把相似或相近的数据划分到相同的组里，聚类就是解决这一类问题的方法之一。

-![](https://www.educoder.net/api/attachments/457573)
+
+![](https://www.educoder.net/api/attachments/462347)



@ -32,7 +34,9 @@

 当我们接到一个数据分析或挖掘的任务或需求时，如果希望用机器学习来处理，首先 要做的是根据任务或需求选择合适算法，选择算法一般步骤如下图所示：

-![](https://www.educoder.net/api/attachments/458857)
+![](https://www.educoder.net/api/attachments/462355)
+
+

 充分了解数据及其特性，有助于我们更有效地选择机器学习算法。采用以上步骤在一定程度上可以缩小算法的选择范围，使我们少走些弯路，但在具体选择哪种算法方面，一般并不存在最好的算法或者可以给出最好结果的算法。在实际做项目的过程中，这个过程往往需要多次尝试，有时还要尝试不同算法。过先用一种简单熟悉的方法，然后，在这个基础上不断优化，时常能收获意想不到的效果。