After Width: | Height: | Size: 49 KiB |
After Width: | Height: | Size: 73 KiB |
After Width: | Height: | Size: 67 KiB |
After Width: | Height: | Size: 34 KiB |
After Width: | Height: | Size: 39 KiB |
@ -0,0 +1,27 @@
|
||||
# 2.1 数据与特征
|
||||
|
||||
正所谓知己知彼,百战不殆。数据挖掘也一样,在对数据进行挖掘之前,首先要了解数据,知道数据长什么样子,数据中有哪些特征,这些特征的分布是怎样的,等等等等。本书中所指的数据默认指结构化数据(类似于excel 表格的数据)。
|
||||
|
||||
|
||||
一般而言,一个结构化数据一般由多条记录组成,而一条记录也一般由多个属性构成。如果将一个结构化数据看成是一个表格,那么表格中的每一行表示一条记录,而表格中的每一列表示数据的一个特征。
|
||||
|
||||
如下图所示的泰坦尼克数据中有 5 条数数据,数据有 12 个特征。当然,我们通常将属性称为特征。
|
||||
|
||||

|
||||
|
||||
根据特征的特点可以将其划分成**离散特征、顺序特征、数值特征**。
|
||||
|
||||
## 离散特征
|
||||
|
||||
离散特征,顾名思义即类别特征。注意:这里的类别指的是没有顺序的类别。如泰坦尼克数据集中的`Survived`、`Sex`、`Cabin`、`Embarked`都是离散特征。因为这些特征的值都代表某种类别。如`Sex`中的`male`和`female`分别代表男性和女性,而且男性与女性之间没有顺序关系。
|
||||
|
||||
## 顺序特征
|
||||
|
||||
顺序特征和离散特征一样都代表类别特征,只不过顺序特征表示的是具有顺序属性的类别特征。如泰坦尼克数据集中的`Pclass`、`SibSp`、`Parch`属于顺序特征。例如`Pclass`表示乘客的船舱的等级,`3、2、1`分别表示三等舱、二等舱和一等舱。很明显,一等舱的高级程度是高于其他两种舱的,所以是`Pclass`是顺序特征。
|
||||
|
||||
## 数值特征
|
||||
|
||||
数值特征表示的数值型特征,这就很好理解了。只要该特征的值是数值型的,则该特征为数值特征。如`Age`、`Fare`都是数值特征。
|
||||
|
||||
|
||||
|
After Width: | Height: | Size: 17 KiB |
After Width: | Height: | Size: 17 KiB |
After Width: | Height: | Size: 15 KiB |
After Width: | Height: | Size: 22 KiB |
After Width: | Height: | Size: 21 KiB |
After Width: | Height: | Size: 32 KiB |