前面几篇文章分享的都是seq2seq和attention model在机器翻译领域中的应用,在自动文摘系列文章中也分享了六七篇在自动文摘领域中的应用。本文将分享的这篇文章研究了seq2seq+attention在textual entailment领域的应用。本文题目是REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION,作者是来自英国伦敦大学学院的Tim Rocktaschel博士(后面两个作者来自Google Deepmind),文章于2015年9月放在arxiv上,被ICLR 2016录用。
首先,介绍一下文本蕴藏(textual entailment)是一个怎样的任务,简单点说就是用来判断两个文本序列之间的是否存在推断关系,是一个分类问题(具体可参见Wikipedia)。两个文本序列分别称为premise和hypothesis。
本文最大的贡献在于:
1、将end2end的思想应用到了文本蕴藏领域,取得了不错的效果。
2、提出了一种seq2seq模型、两种attention模型和一种trick模型。
本篇关注的重点在于四种模型的构建,来看模型架构图:
图中A是我们最熟悉的简单seq2seq模型,本文称为conditional encoding模型;B是本文提出的Attention模型,context与之前分享的都不一样;C是我们之前介绍过的attention模型,本文称为word-by-word attention模型。
1、首先介绍A模型。将premise和hypothesis认为是source和target,即用encoder来处理premise,用decoder来处理hypothesis,只不过这里的decoder并不是一个语言模型,而只是一个和encoder一样的LSTM,decoder的输入是encoder的最后一个hidden state,对应图中的c5和h5。最后decoder的输出是一个联合表示premise和hypothesis的向量,用于最终的分类。
2、介绍B模型。该任务和机器翻译不同,并不一定需要做所谓的soft alignment,而是只需要表示好两个句子之间的关系即可,因此这个模型的想法是将hypothesis的句子表示与premise建立注意力机制,而不是将hypothesis的每个单词都与premise做alignment。从上图中标记B的地方也可以看出,attention仅仅依赖于hypothesis的last hidden state。结果可以参看下图:
从图中可以看出hypothesis与premise中哪些词相关性更强。
3、介绍C模型。这个模型与我们之前一直分享的attention模型一致,模型对hypothesis和premise每个单词做了alignment,所以这里称为word-by-word attention,从模型架构图中也可以看出,hypothesis中的每个词都与premise中对应的词进行了alignment。这里并不是生成单词,而是建立起两个文本序列之间的关系。结果可以参看下图:
图中表示的是alignment矩阵,更暗的地方表示这两个词更加相关。
4、最后一种模型称为two-way模型,其实是一个trick,借鉴了BiRNN的思想,使用两个相同参数的LSTM,第一个LSTM从一个方向上对基于hypothesis的premise进行表示,而第二个LSTM从相反的方向上对基于premise的hypothesis进行表示,最终得到两个句子表示,拼接起来作为分类的输入。(过程与BiRNN类似,从两个方向上对hypothesis-premise进行了表示,可与前面的模型组合使用,从结果上来看并没有什么明显的作用)
最后的实验结果表明,采用模型C,即word-by-word attention模型效果最好,其次是B模型,最差的是A模型。结果与预期基本符合,但加了two-way的效果并没有更好,反而更差。作者分析说用了相同的参数来做two-way可能会给训练给来更多的噪声影响,所以效果并不好。
整体上来说,seq2seq+attention的组合给很多研究领域带来了春天,给了研究者们更多的启发,attention的形式有多种,可能针对不同的问题,不同的attention会带来不同的效果,也不好说哪一种一定更加适合某一个特定的任务,所以需要去不断地探索。
来源:paperweekly
原文链接
相关资源:七夕情人节表白HTML源码(两款)