LAMBADA 数据集简介

2020-02-14

摘要

该数据集在 2016 年的论文 The LAMBADA dataset: Word prediction requiring a broad discourse context 中被提出。

摘要

我们引入LAMBADA，一个数据集，通过单词预测任务来评估用于文本理解的计算模型的能力。LAMBADA是一组叙述性段落，具有这样一个特点：如果人们接触到整个段落，他们能够猜出最后一个单词，但如果他们只看到目标单词前面的最后一个句子，就猜不出最后一个单词。要在LAMBADA上取得成功，计算模型不能简单地依赖于本地上下文，而必须能够在更广泛的讨论中跟踪信息。我们表明，LAMBADA代表了广泛的语言现象，并且在这个新颖的基准上，几种最先进的语言模型都没有达到1%以上的准确率。因此，我们提出LAMBADA作为一个具有挑战性的测试集，旨在鼓励开发能够真正理解自然语言文本中广泛语境的新模型。

论文地址：

https://arxiv.org/abs/1606.06031v1

http://aclweb.org/anthology/P/P16/P16-1144.pdf

http://www.paperweekly.site/papers/488