修改内容

6 years ago · 654227b6f9
parent ef1ade007c
commit 654227b6f9
2 changed files with 36 additions and 3 deletions
--- a/chapter5/5.1Spark机器学习入门.md
+++ b/chapter5/5.1Spark机器学习入门.md
@ -4,11 +4,11 @@
 ### 5.1.1 机器学习的定义
 在维基百科上对机器学习提出以下几种定义：

- “机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。
+- 机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

- “机器学习是对能通过经验自动改进的计算机算法的研究”。
+- 机器学习是对能通过经验自动改进的计算机算法的研究。

- “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”
+- 机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

 可以看出机器学习强调三个关键词：算法、经验、性能，其处理过程如下图所示。

--- a/chapter5/5.2Spark机器学习-坦克卫星图片识别分类.md
+++ b/chapter5/5.2Spark机器学习-坦克卫星图片识别分类.md
@ -199,6 +199,7 @@ model = lr.fit(train_df)

 ```
 predict_df = model.transform(test_df)
+predict_df.show()

 # 对测试集做predict, 生成(预测分类, 正确分类)
 def build_predict_target(row):
@ -211,4 +212,36 @@ metrics = BinaryClassificationMetrics(predict_and_target_rdd)
 print(metrics.areaUnderROC)
 ```

+
+```
+--------------------+-----+--------------------+--------------------+----------+
+|            features|label|       rawPrediction|         probability|prediction|
+--------------------+-----+--------------------+--------------------+----------+
+|[136.0,170.0,186....|    2|[5.50038384392939...|[1.14272614124392...|       2.0|
+|[153.0,171.0,188....|    2|[5.64285991677237...|[1.05275151181886...|       2.0|
+|[154.0,169.0,170....|    2|[9.13811240418261...|[1.23461484600179...|       2.0|
+|[170.0,136.0,137....|    2|[8.73938836713828...|[0.82025040564946...|       0.0|
+|[170.0,136.0,153....|    2|[-49.156574377688...|[1.01787595814187...|       2.0|
+|[170.0,136.0,170....|    2|[-4.3502636934223...|[2.10198053824788...|       2.0|
+|[170.0,153.0,153....|    2|[24.7504340465642...|[0.95194611168804...|       0.0|
+|[170.0,153.0,153....|    2|[10.3396476252517...|[5.05385721565579...|       2.0|
+|[170.0,153.0,170....|    2|[-32.327699408487...|[1.79381269532298...|       2.0|
+|[170.0,153.0,187....|    2|[-2.5797308183266...|[2.55194094783080...|       2.0|
+|[170.0,169.0,188....|    2|[21.8731085621900...|[0.99999249446448...|       0.0|
+|[170.0,170.0,171....|    2|[13.2679489547443...|[2.59628186559201...|       2.0|
+|[170.0,170.0,187....|    2|[-5.3908431995277...|[4.7174559422271E...|       2.0|
+|[170.0,171.0,170....|    2|[-1.4335778407781...|[2.73396015551679...|       2.0|
+|[187.0,135.0,170....|    2|[10.2316756244436...|[0.97051656471285...|       0.0|
+|[187.0,170.0,119....|    2|[-3.4790019515889...|[1.56511505482708...|       2.0|
+|[187.0,170.0,136....|    2|[10.9991854080053...|[0.01532263766298...|       2.0|
+|[187.0,170.0,170....|    2|[3.72541501247339...|[7.45308264995363...|       2.0|
+|[187.0,170.0,170....|    2|[9.13578952188178...|[0.15750788232099...|       2.0|
+|[187.0,170.0,171....|    2|[1.83264502941609...|[1.14223140974846...|       2.0|
+--------------------+-----+--------------------+--------------------+----------+
+
+0.870404411764706
+
+```
+
+
 以上代码就是统计模型效果了，由于我们使用的是逻辑回归，我们只要获取`AUC`的值了,`AUC`越大，模型的准确度越高。