第2期Talk实录 | 词向量的几何分布及其应用

    xiaoxiao2021-04-18  166

    [ Q & A ]

    本次 Talk 中涉及的三篇 paper 如下:

    https://arxiv.org/abs/1702.01417

    https://arxiv.org/abs/1611.09799 

    https://arxiv.org/abs/1610.07569

    请问穆博士,您能详细的讲一下 subspace representation 的方法吗?

    穆佳琦:感谢提问!首先将所有词的 vector 堆叠成一个矩阵,提取这个矩阵的若干个(3-5)主成分,然后这几个主成分对应的 vector 就是 subspace 的基底。

    不同的句子有不同的长度,形成 subspace 之前是否需要对句子做了定长的处理?

    穆佳琦:不同的句子的确有不同的长度,但是正如@枯草所说,subspace/average/rnn 的办法均不需要对句子做定长的处理。

    请问在消歧任务中,一个词在不同的 context 下是生成了不同的向量么?

    穆佳琦:因为 word2vec 对多义词的表述并不准确,在消歧过程中我们并没有使用多义词本身的 vector,而是使用的除去这个多义词之外其他 context words 的 vectors。

    你好,刚刚说到的分组 k 的值一般选 5,是经验得到的吗?

    穆佳琦:感谢提问!对,是经验得到的。具体是基于 semeval WSI 2010 这个 share task选的参数。

    一词多义的表示扩展到短语级别的话有哪些挑战呢?

    穆佳琦:短语级别的话需要额外解决另外一个问题:什么样的短语是多义的。如果给定多义的短语的话,那么剩下的操作几乎是相同的。

    通过循环迭代的方式能使词义一词多义的效果提升多少呢,感觉 k 的设定已经限制了多于 k 个意思的词的多义表示,迭代的方式是不是可以使得少于 k 个词义的词取得更好的表现,谢谢!

    穆佳琦:迭代表示我们只是做了一个初步的实验,实验中我们只迭代了一次且 的值选的 2。通常而言(包括一些通信系统),具体实现一个非常好的迭代系统需要 tune 很多的参数,包括但不仅限于:什么时候终止,什么时候剪枝,怎么进行合并。

    这种将句子用一个平面来表示的方法是不是比较适合长句子,即 context 信息比较丰富的场景,对于短文本会不会效果提升就不明显了?

    穆佳琦:对,实验也说明 subspace 的办法针对长句子比较有利。主要是短句子中词本来就少,那么取平均的话每个词分的的权重还是比较大,所以有用的信息并没有太多损失。

    请问使用 word2vec 训练出来的词向量,目前有什么比较靠谱的方式用作句子向量或者文档向量呢?

    穆佳琦:稍后会上传 slides,里面有 cite 几篇我觉得很不错的相关的 paper。请查阅哈。

    请问当歧义词出现在不同的句子中时,这些句子对应的平面一定会相交么?这种特性有没一种直观的解释?

    穆佳琦:这里“相交”的定义比较宽泛 - 由于噪声的影响,三个平面完全相交都是几乎不可能的。我们只希望存在一个 unitvector 距离所有的 subspace 都很接近。这种特性是基于最初 subspace 的假设的。假如我们考虑同义词,那么这个同义词应该在 context1 对应的 subspace 中,context2 对应的 subspace 中... 那么这个同义词的所有 subspace 都会和这个同义词的 vector 很接近,恢复 intersection 就可以近似地恢复这个同义词的 representation。同理,假设 polysemy 的每一个 sense 都有一个 representation,那么这个 sense vector 就距离它对应所有的 subspace 很近,也就是这些 subspace 近似相交了。

    subspace 表示怎么和神经网络结合?比如要做个情感分类,那么把句子表示成 vector 是一个很自然的选择。但表示 subspace 后该如何进行后续分析呢?

    穆佳琦:subspace 本身和 supervised task 的结合是我们目前正在研究的问题。之前如果用 vector 表示的话,把 vectors 作为 nn 的输入是一个比较显然的方式。同样的,我们也可以把 subspace 的基底作为 nn 的输入,但是这样做没有完全利用到 subspace 的性质。具体怎么结合我们还没有一个明确的答案。

    请问下在某个方向上的能量是怎么计算的,这个信息量的几何意义是什么?

    穆佳琦:某个方向上的能量就是 PCA 中定义的 variance ratio。它可以认为是所有 sample 在当前方向上的投影的平方和。

    各种 sentence representation 方法能否用到非 sentence 的序列数据上,比如软件操作序列等用户行为序列数据上,如果能的话有哪些挑战,如果不能的话原因是什么?谢谢!

    穆佳琦:如果作用到非 sentence 的序列上,那么需要先解决如下的问题:1. 怎么对 action 进行 vector 的表示,按照 word embedding 生成的 vector 是否具有语义信息;2. 怎么理解这个 sequence,如果要使用现有的 sequence representation 的方式的话,相应的模型是否合理。因为我没有对非 language 的问题研究过,所以具体会遇到什么问题我也不太方便解答。不过@奕伟的提议非常不错,可以先试试有没有比较好的效果。

    不同的句子有不同的长度,形成 subspace 之前是否需要对句子做了定长的处理?

    穆佳琦:不同的句子的确有不同的长度,但是正如@枯草所说,subspace/average/rnn 的办法均不需要对句子做定长的处理。

    请问穆博士,word2vec 训练出来的词向量是不是可以理解为带有一定上下文结构信息的向量(跟窗口大小有关),但是我们把训练出来的词向量作为其它任务的输入或者处理加权等相关处理不就破环了原本的结构信息吗?

    穆佳琦:词向量本身是对词的建模,不对它进行后续处理的话词向量本身的作用就极其有限了。你可以认为词向量是词的 feature,也可以认为是后续 application 中的 pretrained parameters。

    来源:paperweekly

    原文链接


    最新回复(0)