聚类属于无监督的学习方法,它和分类容易搞混,聚类是通过相似的特征,将为标记的各个元素聚在一起,而分类是想实现见山是山、见海便是海的效果。
聚类分析的度量指标用于对聚类结果进行评判,分为内部指标和外部指标两大类,其中外部指标指用事先指定的聚类模型作为参考来评判聚类结果的好坏,而内部指标是指不借助任何外部参考,只用参与聚类的样本评判聚类结果好坏。
聚类的目标是得到较高的簇内相似度和较低的簇间相似度,即使得簇间的距离尽可能大,簇内样本与簇中心的距离尽可能小(两个簇距离越大,表示相似度则越小,这样分出来的类更具有区分度,结果更为正确)。聚类得到的簇可以用聚类中心、簇大小、簇密度和簇描述等来表示。
聚类中心是一个簇中所有样本点的均值(质心),簇大小表示簇中所含样本的数量,簇密度表示簇中样本点的紧密程度,簇描述是簇中样本的业务特征
对于含有?个样本点的数据集?,其中的两个不同样本点(?_?,?_? ),假设?是聚类算法给出的簇划分结果,?是外部参考模型给出的簇划分结果。那么对于样本点?_?,?_?来说,存在以下四种关系:
??:?_?,?_?在?和?中属于相同的簇(算法给出的分类结果和外部参考的分类结果一样)。??:?_?,?_?在?中属于相同的簇,在?中属于不同的簇。??:?_?,?_?在?中属于不同的簇,在?中属于相同的簇。??:?_?,?_?在?和?中属于不同的簇。令?,?,?,?分别表示??,??,??,??所对应的关系数目,由于?_?,?_?之间的关系必定存在于四种关系中的一种,且仅能存在一种关系,因此有: 综合以上思路,于是厉害的人类给出了以下四外部指标:
Rand统计量(Rand Statistic)
?=(?+?)/(?+?+?+?)
F值(F-measure)其中,?表示准确率,?表示召回率:
?=?/(?+?) , ?=?/(?+?)
?=(?^2+1)*??/(?^2 * ?+?),?是参数,当?=1时,就是最常见的?1−???????
Jaccar相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性:
?=?/(?+?+?)
FM指数(Fowlkes and Mallows Index)
以上四个度量指标的值越大,表明聚类结果和参考模型直接的划分结果越吻合(越相似),聚类结果就越好。
内部指标不借助外部参考模型,利用样本点和聚类中心之间的距离来衡量聚类结果的好坏。在聚类分析中,对于两个?维样本?_?=(?_?1,?_?2,…,?_?? )和?_?=(?_?1,?_?2,…,?_?? ),常用的距离度量有欧式距离、曼哈顿距离、切比雪夫距离和明可夫斯基距离等。
欧式距离(Euclidean Distance)是计算欧式空间中两点之间的距离,是最容易理解的距离计算方法,其计算公式如下:(就我们学的距离公式,只不过现在拓展到了高维)
曼哈顿距离(Manhattan Distance)也称城市街区距离,欧式距离表明了空间中两点间的直线距离,但是在城市中,两个地点之间的实际距离是要沿着道路行驶的距离,而不能计算直接穿过大楼的直线距离,曼哈顿距离就用于度量这样的实际行驶距离。(这个好理解,两个点之间实际上不可达,需要绕路行走)
切比雪夫距离(Chebyshev Distance)是向量空间中的一种度量,将空间坐标中两个点的距离定义为其各坐标数值差绝对值的最大值。 ps:吐一下槽,这魔鬼般的公式,非人类似的定义,我表示好难懂,于是我上网盗了一下图,以下图链接点击即可访问
二维背景下的曼哈顿距离:
二维背景下切比雪夫距离:
明可夫斯基距离(Minkowski Distance)是欧式空间的一种测度,是一组距离的定义,被看作是欧式距离和曼哈顿距离的一种推广。
其中?是一个可变的参数,根据?取值的不同,明可夫斯基距离可以表示一类距离。当?=1时,明可夫斯基距离就变成了曼哈顿距离;当?=2时,明可夫斯基距离就变成了欧式距离;当?→∞时,明可夫斯基距离就变成了切比雪夫距离。(个人理解,各种奇奇怪怪的距离的归类)
然后~根据空间中点的距离度量,可以得出以下聚类性能度量的内部指标:
紧密度(Compactness)是每个簇中的样本点到聚类中心的平均距离。对于有?个样本点的簇?来说,该簇的紧密度为: 而对于聚类结果,需要使用所有簇紧密度的平均值来衡量聚类结果的好坏,假设总共有?个簇,那么: 紧密度的值越小,表示簇内样本点的距离越近,即簇内样本的相似度越高。
分隔度(Seperation)是各簇的聚类中心?_? 、?_?两两之间的平均距离,其计算公式如下: 分隔度的值越大,表示各聚类中心相互之间的距离越远,即簇间相似度越低。
戴维森堡丁指数(Davies-Bouldin Index,DBI)衡量任意两个簇的簇内距离之和与簇间距离之比,然后求最大值。首先定义簇中?个?维样本点之间的平均距离???(就是计算分割度,利用欧式距离) 根据两个簇内样本间的平均距离,可以得出戴维森堡丁指数的计算公式如下,其中?_? 、?_?表示簇?_?、?_?的聚类中心: ???的值越小,表示簇内样本之间的距离越小,同时簇间距离越大,即簇内相似度高,簇间相似度低,说明聚类结果越好。
邓恩指数(Dunn Validity Index,DVI)是计算任意两个簇的样本点的最短距离与任意簇中样本点的最大距离之商。假设聚类结果中有?个簇,其计算公式如下:
???的值越大,表示簇间样本距离越远,簇内样本距离越近,即簇间相似度低,簇内相似度高,聚类结果越好。
