|
|
|
@ -12,7 +12,8 @@
|
|
|
|
|
|
|
|
|
|
可以看出机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
上图表明机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据。
|
|
|
|
|
|
|
|
|
@ -24,7 +25,8 @@
|
|
|
|
|
分类和回归,都是先根据标签值或目标值建立模型或规则,然后利用这些带有目标值 的数据形成的模型或规则 ,对新数据进行识别或预测。这两种方法都属于监督学习。与监督学习相对的
|
|
|
|
|
是无监督学习,无监督学习不指定目标值或预先无法知道目标值,它可以把相似或相近的数据划分到相同的组里,聚类就是解决这一类问题的方法之一。
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@ -32,7 +34,9 @@
|
|
|
|
|
|
|
|
|
|
当我们接到一个数据分析或挖掘的任务或需求时,如果希望用机器学习来处理,首先 要做的是根据任务或需求选择合适算法,选择算法一般步骤如下图所示:
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
充分了解数据及其特性,有助于我们更有效地选择机器学习算法。采用以上步骤在一定程度上可以缩小算法的选择范围,使我们少走些弯路,但在具体选择哪种算法方面,一般并不存在最好的算法或者可以给出最好结果的算法。在实际做项目的过程中,这个过程往往需要多次尝试,有时还要尝试不同算法。过先用一种简单熟悉的方法,然后,在这个基础上不断优化,时常能收获意想不到的效果。
|
|
|
|
|
|
|
|
|
|