机器学习二：K均值聚类算法（k-means clustering algorithm）

xiaoxiao2022-07-07 224

k均值聚类算法是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下其中一个： 1）没有（或最小数目）对象被重新分配给不同的聚类； 2）没有（或最小数目）聚类中心再发生变化； 3）误差平方和局部最小。 4）性质： k均值聚类是使用最大期望算法（Expectation-Maximization algorithm）求解的高斯混合模型（Gaussian Mixture Model, GMM）在正态分布的协方差为单位矩阵，且隐变量的后验分布为一组狄拉克δ函数时所得到的特例。

聚类与分类最大的区别在于，聚类过程为无监督过程，即待处理数据对象没有任何先验知识，而分类过程为有监督过程，即存在有先验知识的训练数据集。

K-means算法原理： k-means算法中的k代表类簇个数，means代表类簇内数据对象的均值（这种均值是一种对类簇中心的描述），因此，k-means算法又称为k-均值算法。k-means算法是一种基于划分的聚类算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。数据对象间距离的计算有很多种，k-means算法通常采用欧氏距离来计算数据对象间的距离。算法详细的流程描述如下：对于给定的一个包含n个d维数据点的数据集X以及要分得的类别K，选取欧式距离作为相似度指标，聚类目标是使得各类的聚类平方和最小，即最小化：结合最小二乘法和拉格朗日原理，聚类中心为对应类别中各数据点的平均值，同时为了使得算法收敛，在迭代过程中，应使最终的聚类中心尽可能的不变。

算法流程： 1）选取数据空间中的K个对象作为初始中心，每个对象代表一个聚类中心； 2）对于样本中的数据对象，根据它们与这些聚类中心的欧氏距离，按距离最近的准则将它们分到距离它们最近的聚类中心（最相似）所对应的类； 3）更新聚类中心：将每个类别中所有对象所对应的均值作为该类别的聚类中心，计算目标函数的值； 4）判断聚类中心和目标函数的值是否发生改变，若不变，则输出结果，若改变，则返回2）。

部分内容参考自：https://www.cnblogs.com/ybjourney/p/4714870.html 感谢博主，如有侵权，请联系删！

最新回复(0)