diff --git a/chapter5/5.1Spark机器学习入门.md b/chapter5/5.1Spark机器学习入门.md index b930464..a736eca 100644 --- a/chapter5/5.1Spark机器学习入门.md +++ b/chapter5/5.1Spark机器学习入门.md @@ -12,7 +12,8 @@ 可以看出机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。 -![](https://www.educoder.net/api/attachments/457570) +![](https://www.educoder.net/api/attachments/462336) + 上图表明机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据。 @@ -24,7 +25,8 @@ 分类和回归,都是先根据标签值或目标值建立模型或规则,然后利用这些带有目标值 的数据形成的模型或规则 ,对新数据进行识别或预测。这两种方法都属于监督学习。与监督学习相对的 是无监督学习,无监督学习不指定目标值或预先无法知道目标值,它可以把相似或相近的数据划分到相同的组里,聚类就是解决这一类问题的方法之一。 -![](https://www.educoder.net/api/attachments/457573) + +![](https://www.educoder.net/api/attachments/462347) @@ -32,7 +34,9 @@ 当我们接到一个数据分析或挖掘的任务或需求时,如果希望用机器学习来处理,首先 要做的是根据任务或需求选择合适算法,选择算法一般步骤如下图所示: -![](https://www.educoder.net/api/attachments/458857) +![](https://www.educoder.net/api/attachments/462355) + + 充分了解数据及其特性,有助于我们更有效地选择机器学习算法。采用以上步骤在一定程度上可以缩小算法的选择范围,使我们少走些弯路,但在具体选择哪种算法方面,一般并不存在最好的算法或者可以给出最好结果的算法。在实际做项目的过程中,这个过程往往需要多次尝试,有时还要尝试不同算法。过先用一种简单熟悉的方法,然后,在这个基础上不断优化,时常能收获意想不到的效果。