李宏毅-DeepLearning-2017-Unsupervised Learning:Neighbor Embedding

    xiaoxiao2021-04-15  232

    数据降维的方法: Manifold Learning(流行学习) 1、什么是流形

    流形学习的观点:认为我们所能观察到的数据实际上是由一个低维流行映射到高维空间的。由于数据内部特征的限制,一些高维中的数据会产生维度上的冗余,实际上这些数据只要比较低的维度就能唯一的表示。所以直观上来讲,一个流形好比是一个d维的空间,在一个m维的空间中(m>d)被扭曲之后的结果。需要注意的是流形并不是一个形状,而是一个空间。举个例子来说,比如说一块布,可以把它看成一个二维的平面,这是一个二维的空间,现在我们把它扭一扭(三维空间),它就变成了一个流形,当然不扭的时候,它也是一个流形,欧式空间是流形的一种特殊情况。如下图所示    流形具有在局部与欧式空间同胚的空间,也就是它在局部具有欧式空间的性质,能用欧式距离来进行距离计算。这就给降维带来了很大的启发,若低维流形嵌入到了高维空间,此时样本在高维空间的分布虽然复杂,但在局部上仍具有欧式空间的性质,因此可以在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。而且当数据被降维到二维和三维时,就可以进行可视化,因此流形学习也可以被用于可视化。 [1]Locally Linear Embedding(LLE)局部线性嵌入 局部线性嵌入的思想:只是试图去保持领域内样本之间的关系。具体如下图所示,样本从高维空间映射到低维空间后,各个领域内的样本之间的线性关系不变。 1)求最小值的Wij,固定住Wij,第一步根据邻域关系计算出所有的样本的领域重构系数w,也就是找出每一个样本和其领域内的样本之间的线性关系

    2)在另外一个空间找到同样Wij关系的两个Zi,Zj,第二步就是根据领域重构系数不变,去求每个样本在低维空间的坐标

    2)zai [2]Laplacian Eigenmaps 1)找一个graph,去降低维度的方法 问题:

    高维的点做成低维的点,完成低维的可视化 降维前做相似度分析P 降维后做相似度分析Q KL计算两个分布的相近程度 计算概率的方法:两个评估的方式:SNE tSNE tSNE更好的可视化,放大gap

    LLE算法总结:

    主要优点:

    1)可以学习任意维的局部线性的低维流形。

    2)算法归结为稀疏矩阵特征分解,计算复杂度相对较小,实现容易。

    3)可以处理非线性的数据,能进行非线性降维。

    主要缺点:

    1)算法所学习的流形只能是不闭合的,且样本集是稠密的。

    2)算法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响。


    最新回复(0)