You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
pt5jvslni/Chapter2/数据的基本统计指标.md

1.9 KiB

2.2 数据的基本统计指标

在进行数据挖掘之前,通常需要先了解数据中特征值的分布。所谓的分布,就是查看数据中特征的一些统计指标。常见的统计指标有均值,中值,标准差,方差等。

假设现在有这样的一份长沙房价数据,并接下来使用这份数据来讲解什么是均值、中值、标准差和方差。

编号 地区 建筑面积 总价
1 开福区 120 900000
2 岳麓区 111 700000
3 天心区 93 600000
4 雨花区 140 1200000
5 开服区 121 910000
6 岳麓区 87 500000

均值

均值即数据表格中的某一列所有的值相加再除以数据条数。反映的是某个特征的特征值的平均水平。如表格中总价的均值为:(900000+700000+600000+1200000+910000+500000)/6=801666.7。也就是说长沙的平均房价为 80 万左右。

中值

中值即对数据表格中某一列所有的值进行排序后,排在中间位置的值。反映的是某个特征的特征值的中等水平。如表格中建筑面积经过排序后为87, 93, 111, 120, 121, 140,那么建筑面积的中值就是 111 。也就是说整个数据集给出的信息是,长沙中等水平的房子的面积为 111 平。

方差

方差表示的是表格中某一列所有的值的分散程度,方差越大说明越分散。方差的计算公式如下(其中μ表示均值)


\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2

如表格中总价的方差为:((900000-801666.7)^2+(700000-80166.7)^2+(600000-80166.7)^2+(1200000-80166.7)^2+(910000-80166.7)^2+(500000-80166.7)^2)/6=574242757455.5568。从方差的值来看,数据中体现了长沙的房价的分散程度比较大,并没有集中在均价的水平。

标准差

标准差即方差的算术平方根。如表格中总价的标准差为:757788.0689583049。同样,标准差越大说明数据越分散。