You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.
# 2.2 数据的基本统计指标
在进行数据挖掘之前,通常需要先了解数据中特征值的分布。所谓的分布,就是查看数据中特征的一些统计指标。常见的统计指标有均值,中值,标准差,方差等。
假设现在有这样的一份长沙房价数据,并接下来使用这份数据来讲解什么是均值、中值、标准差和方差。
| 编号 | 地区| 建筑面积 |总价|
|:-:|:-:|:-:|:-:|
| 1 | 开福区 | 120 | 900000 |
| 2 | 岳麓区 | 111 | 700000 |
| 3 | 天心区 | 93 | 600000 |
| 4 | 雨花区 | 140 | 1200000 |
| 5 | 开服区 | 121 | 910000 |
| 6 | 岳麓区 | 87 | 500000 |
## 均值
均值即数据表格中的某一列所有的值相加再除以数据条数。反映的是某个特征的特征值的平均水平。如表格中总价的均值为:`(900000+700000+600000+1200000+910000+500000)/6=801666.7`。也就是说长沙的平均房价为 80 万左右。
## 中值
中值即对数据表格中某一列所有的值进行排序后,排在中间位置的值。反映的是某个特征的特征值的中等水平。如表格中建筑面积经过排序后为`87, 93, 111, 120, 121, 140`,那么建筑面积的中值就是 111 。也就是说整个数据集给出的信息是,长沙中等水平的房子的面积为 111 平。
## 方差
方差表示的是表格中某一列所有的值的分散程度,方差越大说明越分散。方差的计算公式如下(其中μ表示均值):
$$
\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2
$$
如表格中总价的方差为:`((900000-801666.7)^2+(700000-80166.7)^2+(600000-80166.7)^2+(1200000-80166.7)^2+(910000-80166.7)^2+(500000-80166.7)^2)/6=574242757455.5568`。从方差的值来看,数据中体现了长沙的房价的分散程度比较大,并没有集中在均价的水平。
## 标准差
标准差即方差的算术平方根。如表格中总价的标准差为:`757788.0689583049`。同样,标准差越大说明数据越分散。