kNN在训练集中通过某种距离度量找到靠近测试样本的k个训练样本,再根据投票法或是平均法输出预测结果 kNN是懒惰学习(还有懒惰决策树)的著名代表,训练时间为0,即不需要训练。 kNN虽然简单,但泛化错误率不超过贝叶斯最优分类器的错误率的两倍。
属性越多,维度越高,很多情况下高维度带来了维数灾难,这将带来数据样本稀疏、距离计算困难等问题,因此,我们需要通过降维来缓解维数灾难。
PCA通过简单的向量减法和矩阵-向量乘法将新样本投影到低维空间中。 PCA将最小的几个特征值的特征向量舍弃了,这是降维导致的结果,但是舍弃这些信息能使样本的采样密度增大,这也正是降维的重要动机,另一方面最小的特征值所对应的特征向量往往与噪声有关,舍弃它们也在一定程度上起到去噪的效果。 优势:实现快速简单,变种有KPCA和稀疏PCA等 缺点:新特征列不易解释 详见:https://blog.csdn.net/u010921136/article/details/89885045
优势:LDA受到监督,可以(但不总是)提高提取特征的预测性能。 此外,LDA提供变化(即二次LDA)来解决特定的障碍。 缺点:与PCA一样,新特征列不易解释,您仍必须手动设置或调整要保留的组件数量。 LDA还需要标记数据,这使其更具情境性。
核主成分分析(KPCA) 引入了核函数。 需对所有样本求和,计算开销大。
优势:1)假设流形的存在,部分解决了高维数据分布的问题。 缺点:1)假设流形的存在,不能总是适合数据特点。
等度量映射(Isomap) 流形在局部上与欧式空间同胚,对每个点基于欧式距离找出近邻点,然后就能建立一个近邻连接图 k近邻图:指定近邻点个数,例如欧式距离最近的k个点作为近邻点,从而得到一个k近邻图 e近邻图:指定距离阈值e,距离小于e的点被认为是近邻点,从而得到一个k近邻图
局部线性嵌入(LLE) 与Isomap试图保持近邻样本之间的距离不同,LLE试图保持邻域内样本之间的线性关系。
度量学习的目标:学习出一个合适的距离度量 不同的度量学习方法针对不同目标获得“好”的半正定对称距离度量矩阵M 关于一个欧几里德空间V的一个基,我们把内积函数在基向量上的值写成的一个矩阵称为关于该基的度量矩阵。 最终就可以将原始空间通过度量矩阵M降维。