我的博客

LAMBADA 数据集简介

目录
  1. 摘要

该数据集在 2016 年的论文 The LAMBADA dataset: Word prediction requiring a broad discourse context 中被提出。

摘要

我们引入LAMBADA,一个数据集,通过单词预测任务来评估用于文本理解的计算模型的能力。LAMBADA是一组叙述性段落,具有这样一个特点:如果人们接触到整个段落,他们能够猜出最后一个单词,但如果他们只看到目标单词前面的最后一个句子,就猜不出最后一个单词。要在LAMBADA上取得成功,计算模型不能简单地依赖于本地上下文,而必须能够在更广泛的讨论中跟踪信息。我们表明,LAMBADA代表了广泛的语言现象,并且在这个新颖的基准上,几种最先进的语言模型都没有达到1%以上的准确率。因此,我们提出LAMBADA作为一个具有挑战性的测试集,旨在鼓励开发能够真正理解自然语言文本中广泛语境的新模型。

论文地址:

https://arxiv.org/abs/1606.06031v1

http://aclweb.org/anthology/P/P16/P16-1144.pdf

http://www.paperweekly.site/papers/488

评论无需登录,可以匿名,欢迎评论!