Text Understanding with the Attention Sum Reader Network

xiaoxiao2021-07-12 271

本文是机器阅读系列的第四篇文章，本文的模型常出现在最新的机器阅读paper中related works部分，也是很多更好的模型的基础模型，所以很有必要来看下这篇paper，看得远往往不是因为长得高，而是因为站得高。本文的题目是Text Understanding with the Attention Sum Reader Network，作者是来自IBM Watson的研究员Rudolf Kadlec，paper最早于2016年3月4日submit在arxiv上。

本文的模型被称作Attention Sum Reader，具体见下图：

step 1 通过一层Embedding层将document和query中的word分别映射成向量。

step 2 用一个单层双向GRU来encode document，得到context representation，每个time step的拼接来表示该词。

step 3 用一个单层双向GRU来encode query，用两个方向的last state拼接来表示query。

step 4 每个word vector与query vector作点积后归一化的结果作为attention weights，就query与document中的每个词之前的相关性度量。

step 5 最后做一次相同词概率的合并，得到每个词的概率，最大概率的那个词即为answer。

模型在CNN/Daily Mail和CBT的Nouns、Named Entity数据集上进行了测试，在当时的情况下都取得了领先的结果。并且得到了一些有趣的结论，比如：在CNN/Daily Mail数据集上，随着document的长度增加，测试的准确率会下降，而在CBT数据集上得到了相反的结论。从中可以看得出，两个数据集有着不同的特征，构造方法也不尽相同，因此同一个模型会有着不同的趋势。

本文的模型相比于Attentive Reader和Impatient Reader更加简单，没有那么多繁琐的attention求解过程，只是用了点乘来作为weights，却得到了比Attentive Reader更好的结果，从这里我们看得出，并不是模型越复杂，计算过程越繁琐就效果一定越好，更多的时候可能是简单的东西会有更好的效果。

另外，在这几篇paper中的related works中，都会提到用Memory Networks来解决这个问题。接下来的文章将会分享Memory Networks在机器阅读理解中的应用，大家敬请关注。

来源：paperweekly

原文链接

相关资源：七夕情人节表白HTML源码(两款)

专利

最新回复(0)