聚类模型性能评估指标

聚类的性能度量大致分为两类:一类是将聚类结果与某个参考模型作为参照进行比较,也就是所谓的外部指标;另一类是则是直接度量聚类的性能而不使用参考模型进行比较,也就是内部指标

外部指标

外部指标通常使用 Jaccard Coefficient(JC系数)、Fowlkes and Mallows Index(FM指数)以及 Rand index(Rand指数)。

想要计算上述指标来度量聚类的性能,首先需要计算出。假设数据集。通过聚类模型给出的簇划分为,参考模型给出的簇划分为分别表示对应的簇标记,则有:

举个例子,参考模型给出的簇与聚类模型给出的簇划分如下:

编号 参考簇 聚类簇
1 0 0
2 0 0
3 0 1
4 1 1
5 1 2
6 1 2

那么满足的样本对为(因为号样本与号样本的参考簇都为,聚类簇都为),(因为号样本与号样本的参考簇都为,聚类簇都为)。总共有个样本对满足,因此

满足的样本对为(因为号样本与号样本的参考簇不同,但聚类簇都为)。总共有个样本对满足,因此

那么满足的样本对为(因为号样本与号样本的聚类簇不同,但参考簇都为),(因为号样本与号样本的聚类簇不同,但参考簇都为),(因为号样本与号样本的聚类簇不同,但参考簇都为),(因为号样本与号样本的聚类簇不同,但参考簇都为)。总共有个样本对满足,因此

满足的样本对为(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同),(因为号样本与号样本的参考簇不同,聚类簇也不同)。总共有个样本对满足,因此

JC系数

JC系数根据上面所提到的来计算,并且值域为,值越大说明聚类性能越好,公式如下:

因此刚刚的例子中,

FM指数

FM指数根据上面所提到的来计算,并且值域为,值越大说明聚类性能越好,公式如下:

因此刚刚的例子中,

Rand指数

Rand指数根据上面所提到的来计算,并且值域为,值越大说明聚类性能越好,假设为样本数量,公式如下:

因此刚刚的例子中,

内部指标

内部指标通常使用 Davies-Bouldin Index (DB指数)以及 Dunn Index(Dunn指数)。

DB指数

DB指数又称 DBI ,计算公式如下:

公式中的表达式其实很好理解,其中代表聚类有多少个簇,代表第个簇的中心点,代表个簇中所有数据与第个簇的中心点的平均距离。代表第个簇的中心点与第个簇的中心点的距离。

举个例子,现在有条西瓜数据,这些数据已经聚类成了个簇。

编号 体积 重量
1 3 4 1
2 6 9 2
3 2 3 1
4 3 4 1
5 7 10 2
6 8 11 2

从表格可以看出:

因此有:

DB指数越小就越就意味着簇内距离越小同时簇间距离越大,也就是说DB指数越小越好。

Dunn指数

Dunn指数又称DI,计算公式如下:

公式中的表达式其实很好理解,其中代表聚类有多少个簇,代表第个簇中的样本与第个簇中的样本之间的最短距离,代表第个簇中相距最远的样本之间的距离。

还是这个例子,现在有 6 条西瓜数据,这些数据已经聚类成了 2 个簇。

编号 体积 重量
1 3 4 1
2 6 9 2
3 2 3 1
4 3 4 1
5 7 10 2
6 8 11 2

从表格可以看出:

因此有:

Dunn指数越大意味着簇内距离越小同时簇间距离越大,也就是说Dunn指数越大越好。

results matching ""

    No results matching ""