论文链接:https://arxiv.org/pdf/1810.01170v1.pdf
本文总结了口语对话系统中端到端(E2E)自然语言生成(NLG)的第一个共享任务的实验设置和结果。 最近的端到端生成系统很有前途,因为它们减少了对数据注释的需求。 但是,它们目前仅限于小型的去词汇化(delexicalised)数据集。E2E NLG共享任务旨在评估这些新方法在学习了包含更高词汇丰富度,句法复杂性和多样化话语现象的数据集后是否能够产生更高质量的输出。 我们比较了17个机构提交的62个系统,涵盖了广泛的方法,包括机器学习架构——大多数实现了序列到序列模型(seq2seq)——以及基于语法规则和模板的系统。
本文总结了口头对话系统(SDS)中端到端(E2E)自然语言生成(NLG)的第一个共同任务。共享任务已成为推动自然语言处理领域研究界限的既定方式,自2007年以来一直在运行NLG基准测试任务(Belz和Gatt,2007)。
这项任务是新颖的,因为它对最近的端到端、数据驱动的用于SDS的NLG系统提出了新的挑战,这些系统共同学习句子规划和表面实现,并且不需要在语义表示(MRS)和相应的自然语言参考文本之间进行昂贵的语义对齐。
目前端到端的NLG系统仅限于小型的去词汇化(delexicalised)数据集,而E2E共享任务是基于餐馆领域中一个新的50K实例的众包数据集,该数据集大约大10倍,而且还包括比以前的数据集更复杂。
对于共同的挑战,我们收到了来自11个国家的17个机构提交的62份系统报告,其中约1/3来自工业界。 我们通过使用自动和人工评估将它们与具有挑战性的基线进行比较来评估提交的系统。 我们认为这种参与水平取得了意想不到的成功,这突显了这项任务的及时性。虽然之前的研究比较了有限数量的端到端NLG方法,这是第一个大规模评估新型端到端生成系统并使用人类评估的研究。
数据收集过程
我们使用由无序的属性及其值组成的MR,并收集多个相应的自然语言文本(reference) - 由一个或多个句子组成的话语。 MR参考对的示例如图1所示,表1列出了我们域中的所有属性。
与以前的工作相比,我们对数据收集使用不同的意义表示形式:文本/逻辑和图像MR。 文本/逻辑MR(参见图1)采用具有以随机顺序提供的属性值对的序列的形式。 图示MR(参见图2)是半自动生成的图片,其中图标的组合对应于适当的属性。 图标位于显示城市地图的背景上,因此允许表示属性区域和附近的含义(参见表1)。
在一项预研究中,我们发现图片MR提供了类似的收集速度和话语长度,但不太可能为人群工作者提供词汇选择。 使用图片MR产生的话语被认为是更具信息性,更自然和更好的措辞。 然而,虽然图像MR提供了更多的话语,但这也引入了噪音。 因此,我们决定使用图片MR来收集20%的数据集。
数据统计
The dataset contains more human references per MR (8.27 on average), which should make it more suitable for data-driven approaches. However, it is also more challenging as it uses a larger number of sentences in references (up to 6 compared to 1–2 in other sets) and more attributes in MRs.
For the E2E challenge, we split the data into training, development and test sets(82:9:9).
字重叠度量标准
人类评估结果
It showed a clear winner: SHEFF2 for naturalness and SLUG for quality.
结果表明,seq2seq系统在其输出的自然性方面占主导地位,而其他架构的大多数系统得分较低。底层群集充满了基于模板的系统。 然而,quality结果在架构方面更加复杂,其中没有一个明显占优势。 这里,基于检查输出正确性得分高的seq2seq系统(seq2seq systems with reranking based on checking output correctness )得分高,而没有这种机制的seq2seq系统占据底部两个簇。
本文介绍了端到端NLG的第一个共享任务。 这一挑战的目的是评估最近端到端,完全数据驱动的NLG系统的功能,这些系统可以通过成对的输入MR和文本进行训练,而无需细粒度的语义对齐。 我们为挑战创建了一个新颖的数据集,这个数据集比以前任何面向任务的NLG的公开数据集都要大一个数量级。 我们收到了来自17个参与机构的62个系统提交,其中包括从基于seq2seq的模型到简单模板的各种体系结构。
我们根据五种不同的自动指标评估了所有条目; 20个主要提交材料(由剩下的14个参与者确定)进行了众包的人类自然评估和产出总体质量评估。
We consider the SLUG system (Juraska et al., 2018), a seq2seq-based ensemble system with a reranker, as the overall winner of the E2E NLG challenge. SLUG scores best in human evaluations of quality, it is placed in the 2nd-best cluster of systems in terms of naturalness and reaches high automatic scores.
附:SLUG模型链接