You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
1.8 KiB
1.8 KiB
2.1 数据与特征
正所谓知己知彼,百战不殆。数据挖掘也一样,在对数据进行挖掘之前,首先要了解数据,知道数据长什么样子,数据中有哪些特征,这些特征的分布是怎样的,等等等等。本书中所指的数据默认指结构化数据(类似于excel 表格的数据)。
一般而言,一个结构化数据一般由多条记录组成,而一条记录也一般由多个属性构成。如果将一个结构化数据看成是一个表格,那么表格中的每一行表示一条记录,而表格中的每一列表示数据的一个特征。
如下图所示的泰坦尼克数据中有 5 条数数据,数据有 12 个特征。当然,我们通常将属性称为特征。
根据特征的特点可以将其划分成离散特征、顺序特征、数值特征。
离散特征
离散特征,顾名思义即类别特征。注意:这里的类别指的是没有顺序的类别。如泰坦尼克数据集中的Survived
、Sex
、Cabin
、Embarked
都是离散特征。因为这些特征的值都代表某种类别。如Sex
中的male
和female
分别代表男性和女性,而且男性与女性之间没有顺序关系。
顺序特征
顺序特征和离散特征一样都代表类别特征,只不过顺序特征表示的是具有顺序属性的类别特征。如泰坦尼克数据集中的Pclass
、SibSp
、Parch
属于顺序特征。例如Pclass
表示乘客的船舱的等级,3、2、1
分别表示三等舱、二等舱和一等舱。很明显,一等舱的高级程度是高于其他两种舱的,所以是Pclass
是顺序特征。
数值特征
数值特征表示的数值型特征,这就很好理解了。只要该特征的值是数值型的,则该特征为数值特征。如Age
、Fare
都是数值特征。