# 2.2 数据的基本统计指标 在进行数据挖掘之前,通常需要先了解数据中特征值的分布。所谓的分布,就是查看数据中特征的一些统计指标。常见的统计指标有均值,中值,标准差,方差等。 假设现在有这样的一份长沙房价数据,并接下来使用这份数据来讲解什么是均值、中值、标准差和方差。 | 编号 | 地区| 建筑面积 |总价| |:-:|:-:|:-:|:-:| | 1 | 开福区 | 120 | 900000 | | 2 | 岳麓区 | 111 | 700000 | | 3 | 天心区 | 93 | 600000 | | 4 | 雨花区 | 140 | 1200000 | | 5 | 开服区 | 121 | 910000 | | 6 | 岳麓区 | 87 | 500000 | ## 均值 均值即数据表格中的某一列所有的值相加再除以数据条数。反映的是某个特征的特征值的平均水平。如表格中总价的均值为:`(900000+700000+600000+1200000+910000+500000)/6=801666.7`。也就是说长沙的平均房价为 80 万左右。 ## 中值 中值即对数据表格中某一列所有的值进行排序后,排在中间位置的值。反映的是某个特征的特征值的中等水平。如表格中建筑面积经过排序后为`87, 93, 111, 120, 121, 140`,那么建筑面积的中值就是 111 。也就是说整个数据集给出的信息是,长沙中等水平的房子的面积为 111 平。 ## 方差 方差表示的是表格中某一列所有的值的分散程度,方差越大说明越分散。方差的计算公式如下(其中μ表示均值): $$ \frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2 $$ 如表格中总价的方差为:`((900000-801666.7)^2+(700000-80166.7)^2+(600000-80166.7)^2+(1200000-80166.7)^2+(910000-80166.7)^2+(500000-80166.7)^2)/6=574242757455.5568`。从方差的值来看,数据中体现了长沙的房价的分散程度比较大,并没有集中在均价的水平。 ## 标准差 标准差即方差的算术平方根。如表格中总价的标准差为:`757788.0689583049`。同样,标准差越大说明数据越分散。