You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
1.9 KiB
1.9 KiB
2.2 数据的基本统计指标
在进行数据挖掘之前,通常需要先了解数据中特征值的分布。所谓的分布,就是查看数据中特征的一些统计指标。常见的统计指标有均值,中值,标准差,方差等。
假设现在有这样的一份长沙房价数据,并接下来使用这份数据来讲解什么是均值、中值、标准差和方差。
编号 | 地区 | 建筑面积 | 总价 |
---|---|---|---|
1 | 开福区 | 120 | 900000 |
2 | 岳麓区 | 111 | 700000 |
3 | 天心区 | 93 | 600000 |
4 | 雨花区 | 140 | 1200000 |
5 | 开服区 | 121 | 910000 |
6 | 岳麓区 | 87 | 500000 |
均值
均值即数据表格中的某一列所有的值相加再除以数据条数。反映的是某个特征的特征值的平均水平。如表格中总价的均值为:(900000+700000+600000+1200000+910000+500000)/6=801666.7
。也就是说长沙的平均房价为 80 万左右。
中值
中值即对数据表格中某一列所有的值进行排序后,排在中间位置的值。反映的是某个特征的特征值的中等水平。如表格中建筑面积经过排序后为87, 93, 111, 120, 121, 140
,那么建筑面积的中值就是 111 。也就是说整个数据集给出的信息是,长沙中等水平的房子的面积为 111 平。
方差
方差表示的是表格中某一列所有的值的分散程度,方差越大说明越分散。方差的计算公式如下(其中μ表示均值):
\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2
如表格中总价的方差为:((900000-801666.7)^2+(700000-80166.7)^2+(600000-80166.7)^2+(1200000-80166.7)^2+(910000-80166.7)^2+(500000-80166.7)^2)/6=574242757455.5568
。从方差的值来看,数据中体现了长沙的房价的分散程度比较大,并没有集中在均价的水平。
标准差
标准差即方差的算术平方根。如表格中总价的标准差为:757788.0689583049
。同样,标准差越大说明数据越分散。