You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

1.5 KiB

2.1 数据与属性

一般而言,一个数据集一般由多条数据组成,而一条数据也一般由多个属性构成。如果将一个数据集看成是一个表格,那么表格中的每一行表示一条数据,而表格中的每一列表示数据的一个属性。如下图所示的泰坦尼克数据集中有 5 条数数据,数据有 12 个属性。当然,我们通常将属性称为特征。

根据特征的特点可以将其划分成categorical特征、ordinal特征、numeric特征

categorical特征

categorical特征顾名思义即类别特征。注意这里的类别指的是没有顺序的类别。如泰坦尼克数据集中的SurvivedSexCabinEmbarked都是categorical特征。因为这些特征的值都代表某种类别。如Sex中的malefemale分别代表男性和女性,而且男性与女性之间没有顺序关系。

ordinal特征

ordinal特征和categorical特征一样都代表类别特征只不过ordinal特征表示的是具有顺序属性的类别特征。如泰坦尼克数据集中的PclassSibSpParch属于ordinal特征。例如Pclass表示乘客的船舱的等级,3、2、1分别表示三等舱、二等舱和一等舱。很明显,一等舱的高级程度是高于其他两种舱的,所以是Pclass是ordinal特征。

numeric特征

numeric特征表示的数值型特征这就很好理解了。只要该特征的值是数值型的则该特征为numeric特征。如AgeFare都是numeric特征。