# 2.1 数据与属性 一般而言,一个数据集一般由多条数据组成,而一条数据也一般由多个属性构成。如果将一个数据集看成是一个表格,那么表格中的每一行表示一条数据,而表格中的每一列表示数据的一个属性。如下图所示的泰坦尼克数据集中有 5 条数数据,数据有 12 个属性。当然,我们通常将属性称为特征。 ![](1.jpg) 根据特征的特点可以将其划分成**categorical特征、ordinal特征、numeric特征**。 ## categorical特征 categorical特征,顾名思义即类别特征。注意:这里的类别指的是没有顺序的类别。如泰坦尼克数据集中的`Survived`、`Sex`、`Cabin`、`Embarked`都是categorical特征。因为这些特征的值都代表某种类别。如`Sex`中的`male`和`female`分别代表男性和女性,而且男性与女性之间没有顺序关系。 ## ordinal特征 ordinal特征和categorical特征一样都代表类别特征,只不过ordinal特征表示的是具有顺序属性的类别特征。如泰坦尼克数据集中的`Pclass`、`SibSp`、`Parch`属于ordinal特征。例如`Pclass`表示乘客的船舱的等级,`3、2、1`分别表示三等舱、二等舱和一等舱。很明显,一等舱的高级程度是高于其他两种舱的,所以是`Pclass`是ordinal特征。 ## numeric特征 numeric特征表示的数值型特征,这就很好理解了。只要该特征的值是数值型的,则该特征为numeric特征。如`Age`、`Fare`都是numeric特征。