如何有效使用t-SNE

xiaoxiao2022-11-22 176

尽管对于可视化高维数据非常有用，但t-SNE图有时可能是神秘的或误导性的。通过探索它在简单情况下的行为方式，我们可以学习如何更有效地使用它。

用于探索高维数据的流行方法是由van der Maaten和Hinton于2008年引入的称为t-SNE的东西[1]。该技术在机器学习领域已经变得普遍，因为它具有神奇的能力，可以从具有数百甚至数千维度的数据创建引人注目的双维“地图”。虽然令人印象深刻，但这些图像很容易被误读。本说明的目的是防止一些常见的误读。

我们将通过一系列简单的例子来说明t-SNE图可以和不可以显示什么。 t-SNE技术确实很有用 - 但前提是你知道如何解释它。

在使用之前：如果您之前没有遇到过t-SNE，那么您需要了解它背后的数学知识。目标是在高维空间中获取一组点，并在较低维空间（通常是2D平面）中找到这些点的邻近表示。该算法是非线性的，并且适应底层数据，在不同区域上执行不同的变换。这些差异可能是混乱的主要原因。

t-SNE的第二个特征是可调参数，“perplexity”，它（松散地）说明如何在数据的本地和全局方面之间平衡注意力。在某种意义上，该参数是关于每个点具有的近邻的数量的猜测。 perplexity值对得到的图像具有复杂的影响。原始论文说：“SNE的表现对于perplexity的变化是相当强大的，典型的值在5到50之间。

例如，t-SNE算法并不总是在连续运行中产生类似的输出，并且存在与优化过程相关的附加超参数。

那些超参数真的很重要让我们从t-SNE的“hello world”开始：两个广泛分离的集群的数据集。为了使事情尽可能简单，我们将考虑2D平面中的聚类，如左图所示。（为清楚起见，两个簇是彩色编码的。）右边的图显示了五个不同的perplexity值的t-SNE图。由van der Maaten和Hinton建议的范围（5 - 50）中的perplexity值，图表确实显示了这些簇，尽管形状非常不同。在这个范围之外，事情变得有点奇怪。由于perplexity:2局部变化占主导地位。为了使算法正确地操作，困惑确实应该小于点的数量。否则，实现可能会产生意外行为。上面的每个图都是5000次迭代，学习率（通常称为“epsilon”）为10，并且已经达到了步骤5,000的稳定点。这些价值观有多大区别？根据我们的经验，最重要的是迭代直到达到稳定的配置。

上面的图像显示了perplexit:30的五个不同的运行。前四个在稳定之前停止。在10,20,60和120步之后，您可以看到具有看似群集的一维甚至点状图像的布局。如果你看到一个奇怪的“pinched”形状的t-SNE图，那么这个过程很可能太早停止了。不幸的是，没有固定数量的步骤可以产生稳定的结果。不同的数据集可能需要不同的迭代次数才能收敛。另一个自然的问题是，具有相同超参数的不同运行是否产生相同的结果。在这个简单的双集群示例中，以及我们讨论的大多数其他示例中，多次运行给出了相同的全局形状。但是，某些数据集在不同的运行中会产生明显不同的图表;我们稍后会给出一个例子。从现在开始，除非另有说明，否则我们将显示5,000次迭代的结果。这通常足以在本文的（相对较小的）例子中收敛。然而，我们会继续表现出一系列的perplexit，因为这似乎在每种情况下都会产生很大的不同。

t-SNE图中的簇大小没有任何意义到现在为止还挺好。但是如果这两个集群有不同的标准偏差，那么大小不同呢？（按尺寸，我们指的是边界框测量值，而不是点数。）下面是平面中高斯混合物的t-SNE图，其中一个是另一个的10倍。令人惊讶的是，这两个簇在t-SNE图中看起来大小相同。这是怎么回事？ t-SNE算法使其“距离”概念适应数据集中的区域密度变化。结果，它自然地扩展了密集的集群，并且收缩了稀疏集群，使集群大小缩小。需要明确的是，这与任何降维技术都会扭曲距离的普通事实不同。（毕竟，在这个例子中，所有数据都是二维的开始。）相反，密度均衡是通过设计发生的，并且是t-SNE的可预测特征。

然而，底线是你无法在t-SNE图中看到聚类的相对大小。

集群之间的距离可能没有任何意义集群之间的距离怎么样？下图显示了三个高斯分别为50分，一对分别是另一对的5倍。

在perplexit=50时，该图给出了对全局几何的良好感觉。对于较低的perplexit值，群集看起来是等距的。当perplexit为100时，我们看到全局几何结构很好，但其中一个集群看起来错误地比其他集群小得多。由于perplexit=50在这个例子中给了我们一个好的画面，如果我们想看到全局几何，我们是否总能将perplexit设置为50？可悲的是没有。如果我们为每个群集添加更多点，则必须增加困难以进行补偿。以下是三个高斯群集的t-SNE图，每个群集有200个点，而不是50个。现在没有一个试验perplexit值给出了良好的结果。看到全球几何需要微调perplexit是个坏消息。真实世界的数据可能会有多个具有不同数量元素的集群。可能没有一个perplexit值可以捕获所有集群的距离 - 遗憾的是，perplexit是一个全局参数。解决这个问题可能是未来研究的一个有趣领域。

基本信息是t-SNE图中分离良好的簇之间的距离可能没有任何意义。

随机噪声并不总是随机的一个经典的陷阱是认为你看到的是真正随机数据的模式。当你看到它时，识别噪音是一项关键技能，但要建立正确的直觉需要时间。关于t-SNE的一个棘手的事情是，它抛出了很多现有的直觉。下图显示了真实的随机数据，从100维的单位高斯分布中抽取了500个点。左图是前两个坐标上的投影。

perplexit2的情节似乎表现出戏剧性的集群。如果你正在调整perplexit以在数据中显示结构，你可能会认为你已经中了大奖。

当然，因为我们知道点云是随机生成的，所以它没有统计上有意义的集群：那些“团块”没有意义。如果回顾前面的例子，低perplexit值通常会导致这种分布。将这些团块识别为随机噪声是读取t-SNE图的重要部分。

不过有其他一些有趣的东西，这可能是t-SNE的胜利。起初，perplexit30的情节根本看起来不像高斯分布：云的不同区域之间只存在微小的密度差异，并且这些点看起来可疑地均匀分布。事实上，这些特征是关于高维正态分布的有用的东西，它们非常接近球体上的均匀分布：均匀分布，点之间的间距大致相等。从这个角度来看，t-SNE图比任何线性投影都准确。

你有时可以看到一些形状数据以完全对称的方式很少见。让我们看一下50维的轴对齐高斯分布，其中坐标i的标准偏差是1 / i。也就是说，我们正在研究一个长椭圆形的点云。

对于足够高的perplexit值，细长的形状易于阅读。另一方面，在低perplexit的情况下，局部效应和无意义的“聚集”成为焦点。更加极端的形状也会出现，但同样只有正确的perplexit。例如，这里是两个75个点的集群，每个集群在2D中，以平行线排列，带有一点噪声。对于一定程度的perplexit，长簇看起来接近正确，这是令人放心的。然而，即使在最好的情况下，也存在一种微妙的失真：在t-SNE图中线条略微向外弯曲。原因在于，像往常一样，t-SNE倾向于扩展更密集的数据区域。由于群集的中间周围的空白空间少于末端，因此算法会放大它们。

对于拓扑，您可能需要多个绘图有时您可以从t-SNE图中读取拓扑信息，但这通常需要多个perplexit的视图。最简单的拓扑属性之一是遏制。下图显示了50维空间中的两组75个点。两者都是从以原点为中心的对称高斯分布中采样的，但其中一个比另一个分散50倍。 “小”分布实际上包含在大的分布中。 perplexit30视图正确地显示了基本拓扑，但是t-SNE再次大大夸大了较小点组的大小。在perplexit50时，有一种新现象：外部群体变成一个圆圈，因为情节试图描绘其所有点与内部群体的距离大致相同的事实。如果你单独看这个图像，很容易将这些外点误读为一维结构。

更复杂的拓扑类型呢？对于数学家而言，这可能是实际数据分析师的主题，但有时在野外会发现有趣的低维结构。

考虑一组在三维中跟踪链接或结的点。再一次，查看多个perplexit值可以得到最完整的图像。低perplexit值给出两个完全独立的循环; 高点表现出一种全球连通性。

翻译：https://distill.pub/2016/misread-tsne/

最新回复(0)