|
聚类分析就是将研究对象划分为不同的聚簇,使得每个聚簇中对象间的相似度尽可能高,而不同聚簇中对象间的相似度尽可能低。通过观察二维散点图人们可以很容易指出对应数据集中的聚簇结构,但让计算机从数据集中自动识别潜在的聚簇结构并不是一件容易的事。困难之一在于如何准确估计数据集中包含的聚簇个数,其根本原因在于目前缺乏一个评价聚类结果质量以及比较两种聚类结果的客观方式。
本报告将确定聚簇个数的方法分为三大类:内部度量法、外部度量法以及基于聚类稳定性的方法。除了对每种方法的原理进行介绍之外,还将重点介绍每种方法的优缺点以及各种方法间的关系,并针对一种典型应用场景给出一些指导性建议。 |