# 机器学习常用术语 ## 训练集,测试集,样本,特征 假设我们收集了一份西瓜数据: | 色泽 | 纹理 | 声音 | 甜不甜 | | :-: | :-: | :-: | :-: | | 青绿 | 清晰 | 清脆 | 不甜 | | 青绿 | 模糊 | 浑浊 | 甜| | 乌黑 | 清晰 | 清脆 | 不甜 | | 乌黑 | 模糊 | 浑浊 | 甜 | 并假设现在已经使用机器学习算法根据这份数据的特点训练出了一个很厉害的模型,成为了一个挑瓜好手,只需告诉它这个西瓜的色泽,纹理和声音就能告诉你这个西瓜甜不甜。 我们通常将这种喂给机器学习算法来训练模型的数据称为**训练集**,用来让机器学习算法预测的数据称为**测试集**。 训练集中的所有行称为**样本**。由于我们的挑瓜好手需要的西瓜信息是色泽、纹理和声音,所以此训练集中每个样本的前`3`列称为**特征**。挑瓜好手给出的结果是甜或不甜,所以最后`1`列称为**标签**。 因此,这份数据是一个有`4`个**样本**,`3`个**特征**的**训练集**,训练集的**标签**是“甜不甜”。 ## 欠拟合与过拟合 最好的情况下,我们的模型应该不管在训练集上还是测试集上,它的性能都不错。但是有的时候,我们的模型在训练集上的性能比较差,那么这种情况我们称为**欠拟合**。那如果我们的模型在训练集上的性能好到爆炸,但在测试集上的性能却不尽人意,那么这种情况我们称为**过拟合**。 其实欠拟合与过拟合的区别和我们生活中学生考试的例子很像。如果一个学生在平时的练习中题目的正确率都不高,那么说明这个学生可能基础不牢或者心思没花在学习上,所以这位学生可能欠缺基础知识或者智商可能不太高或者其他种种原因,像这种情况可以看成是**欠拟合**。那如果这位学生平时练习的正确率非常高,但是他不怎么灵光,喜欢死记硬背,只会做已经做过的题,一碰到没见过的新题就不知所措了。像这种情况可以看成时是**过拟合**。 那么是什么原因导致了欠拟合和过拟合呢? 当我们的模型过于简单,很可能会导致欠拟合。如果模型过于复杂,就很可能会导致过拟合。