维数灾难:高维数据情形下出现的数据样本稀疏,距离计算困难等问题是所有机器学习方法共同面临的严重障碍,被称为维数灾难。
降维:亦称维数约简,即通过某种数学变换将原始高维属性空间转变为一个低维“子空间”,在这个子空间样本密度大幅提高,距离计算也变得更为容易。
多维缩放(MDS):要求原始空间样本之间的距离在低维空间中得以保持。
线性降维方法:z = w’X
主成分分析(PCA):是最常用的一种降维方法。1,样本中心化;2.计算协方差矩阵;3,对协方差矩阵做特征值分解;4;取最大的d’个特征值所对应的特征向量,得到投影矩阵w。
核化线性降维:核主成分分析(KPCA):
流形学习:借鉴了拓扑流形概念的降维方法。“流形”是在局部与欧氏空间同胚的空间,换言之,它在局部具有欧式空间的性质,能用欧氏空间来进行距离计算。
等度量映射(Isomap ):MDS 是一种降维方法,它的目的就是使得降维之后的点两两之间的距离尽量不变(也就是和在原始空间中对应的两个点之间的距离要差不多)。只是 MDS 是针对欧氏空间设计的,对于距离的计算也是使用欧氏距离来完成的。如果数据分布在一个流形上的话,欧氏距离就不适用了。Isomap ,它主要做了一件事情,就是把 MDS 中原始空间中距离的计算从欧氏距离换为了流形上的测地距离。当然,如果流形的结构事先不知道的话,这个距离是没法算的,于是 Isomap 通过将数据点连接起来构成一个邻接 Graph 来离散地近似原来的流形,而测地距离也相应地通过 Graph 上的最短路径来近似了。
局部线性嵌入:假设数据中每个点可以由其近邻的几个点重构出来。降到低维,使样本仍能保持原来的重构关系,且重构系数也一样。一个流形在很小的局部邻域上可以近似看成欧式的,就是局部线性的。那么,在小的局部邻域上,一个点就可以用它周围的点在最小二乘意义下最优的线性表示。局部线性嵌入把这个线性拟合的系数当成这个流形局部几何性质的刻画。那么一个好的低维表示,就应该也具有同样的局部几何,所以利用同样的线性表示的表达式。
度量学习:在机器学习中,对高维数据进行降维的主要目的是希望找到一个合适的低维空间,在此空间中进行学习能比原始空间性能更好。事实上,每个空间对应了样本属性上定义的一个距离度量,而寻找合适的空间,实际上就是寻找一个合适的度量距离。直接学习出一个“距离度量”,这就是度量学习的基本动机。