修改内容

master
planet 6 years ago
parent ef1ade007c
commit 654227b6f9

@ -4,11 +4,11 @@
### 5.1.1 机器学习的定义
在维基百科上对机器学习提出以下几种定义:
- 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能
- 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
- 机器学习是对能通过经验自动改进的计算机算法的研究
- 机器学习是对能通过经验自动改进的计算机算法的研究。
- 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
- 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
可以看出机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。

@ -199,6 +199,7 @@ model = lr.fit(train_df)
```
predict_df = model.transform(test_df)
predict_df.show()
# 对测试集做predict, 生成(预测分类, 正确分类)
def build_predict_target(row):
@ -211,4 +212,36 @@ metrics = BinaryClassificationMetrics(predict_and_target_rdd)
print(metrics.areaUnderROC)
```
```
+--------------------+-----+--------------------+--------------------+----------+
| features|label| rawPrediction| probability|prediction|
+--------------------+-----+--------------------+--------------------+----------+
|[136.0,170.0,186....| 2|[5.50038384392939...|[1.14272614124392...| 2.0|
|[153.0,171.0,188....| 2|[5.64285991677237...|[1.05275151181886...| 2.0|
|[154.0,169.0,170....| 2|[9.13811240418261...|[1.23461484600179...| 2.0|
|[170.0,136.0,137....| 2|[8.73938836713828...|[0.82025040564946...| 0.0|
|[170.0,136.0,153....| 2|[-49.156574377688...|[1.01787595814187...| 2.0|
|[170.0,136.0,170....| 2|[-4.3502636934223...|[2.10198053824788...| 2.0|
|[170.0,153.0,153....| 2|[24.7504340465642...|[0.95194611168804...| 0.0|
|[170.0,153.0,153....| 2|[10.3396476252517...|[5.05385721565579...| 2.0|
|[170.0,153.0,170....| 2|[-32.327699408487...|[1.79381269532298...| 2.0|
|[170.0,153.0,187....| 2|[-2.5797308183266...|[2.55194094783080...| 2.0|
|[170.0,169.0,188....| 2|[21.8731085621900...|[0.99999249446448...| 0.0|
|[170.0,170.0,171....| 2|[13.2679489547443...|[2.59628186559201...| 2.0|
|[170.0,170.0,187....| 2|[-5.3908431995277...|[4.7174559422271E...| 2.0|
|[170.0,171.0,170....| 2|[-1.4335778407781...|[2.73396015551679...| 2.0|
|[187.0,135.0,170....| 2|[10.2316756244436...|[0.97051656471285...| 0.0|
|[187.0,170.0,119....| 2|[-3.4790019515889...|[1.56511505482708...| 2.0|
|[187.0,170.0,136....| 2|[10.9991854080053...|[0.01532263766298...| 2.0|
|[187.0,170.0,170....| 2|[3.72541501247339...|[7.45308264995363...| 2.0|
|[187.0,170.0,170....| 2|[9.13578952188178...|[0.15750788232099...| 2.0|
|[187.0,170.0,171....| 2|[1.83264502941609...|[1.14223140974846...| 2.0|
+--------------------+-----+--------------------+--------------------+----------+
0.870404411764706
```
以上代码就是统计模型效果了,由于我们使用的是逻辑回归,我们只要获取`AUC`的值了,`AUC`越大,模型的准确度越高。
Loading…
Cancel
Save