聚类模型性能评估指标
聚类的性能度量大致分为两类:一类是将聚类结果与某个参考模型作为参照进行比较,也就是所谓的外部指标;另一类是则是直接度量聚类的性能而不使用参考模型进行比较,也就是内部指标。
外部指标
外部指标通常使用 Jaccard Coefficient(JC系数)、Fowlkes and Mallows Index(FM指数)以及 Rand index(Rand指数)。
想要计算上述指标来度量聚类的性能,首先需要计算出,,,。假设数据集。通过聚类模型给出的簇划分为,参考模型给出的簇划分为。与分别表示与对应的簇标记,则有:
举个例子,参考模型给出的簇与聚类模型给出的簇划分如下:
编号 | 参考簇 | 聚类簇 |
---|---|---|
1 | 0 | 0 |
2 | 0 | 0 |
3 | 0 | 1 |
4 | 1 | 1 |
5 | 1 | 2 |
6 | 1 | 2 |
那么满足的样本对为(因为号样本与号样本的参考簇都为,聚类簇都为),(因为号样本与号样本的参考簇都为,聚类簇都为)。总共有个样本对满足,因此。
满足的样本对为(因为号样本与号样本的参考簇不同,但聚类簇都为)。总共有个样本对满足,因此。
那么满足的样本对为(因为号样本与号样本的聚类簇不同,但参考簇都为),(因为号样本与号样本的聚类簇不同,但参考簇都为),(因为号样本与号样本的聚类簇不同,但参考簇都为),(因为号样本与号样本的聚类簇不同,但参考簇都为)。总共有个样本对满足,因此。
满足的样本对为(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同)。总共有个样本对满足,因此。
JC系数
JC系数根据上面所提到的,,来计算,并且值域为,值越大说明聚类性能越好,公式如下:
因此刚刚的例子中,
FM指数
FM指数根据上面所提到的,,来计算,并且值域为,值越大说明聚类性能越好,公式如下:
因此刚刚的例子中,
Rand指数
Rand指数根据上面所提到的和来计算,并且值域为,值越大说明聚类性能越好,假设为样本数量,公式如下:
因此刚刚的例子中,。
内部指标
内部指标通常使用 Davies-Bouldin Index (DB指数)以及 Dunn Index(Dunn指数)。
DB指数
DB指数又称 DBI ,计算公式如下:
公式中的表达式其实很好理解,其中代表聚类有多少个簇,代表第个簇的中心点,代表第个簇中所有数据与第个簇的中心点的平均距离。代表第个簇的中心点与第个簇的中心点的距离。
举个例子,现在有条西瓜数据,这些数据已经聚类成了个簇。
编号 | 体积 | 重量 | 簇 |
---|---|---|---|
1 | 3 | 4 | 1 |
2 | 6 | 9 | 2 |
3 | 2 | 3 | 1 |
4 | 3 | 4 | 1 |
5 | 7 | 10 | 2 |
6 | 8 | 11 | 2 |
从表格可以看出:
因此有:
DB指数越小就越就意味着簇内距离越小同时簇间距离越大,也就是说DB指数越小越好。
Dunn指数
Dunn指数又称DI,计算公式如下:
公式中的表达式其实很好理解,其中代表聚类有多少个簇,代表第个簇中的样本与第个簇中的样本之间的最短距离,代表第个簇中相距最远的样本之间的距离。
还是这个例子,现在有 6 条西瓜数据,这些数据已经聚类成了 2 个簇。
编号 | 体积 | 重量 | 簇 |
---|---|---|---|
1 | 3 | 4 | 1 |
2 | 6 | 9 | 2 |
3 | 2 | 3 | 1 |
4 | 3 | 4 | 1 |
5 | 7 | 10 | 2 |
6 | 8 | 11 | 2 |
从表格可以看出:
因此有:
Dunn指数越大意味着簇内距离越小同时簇间距离越大,也就是说Dunn指数越大越好。