我的博客

论文阅读:Open Domain Web Keyphrase Extraction

目录
  1. 关键词抽取任务
  2. 引用的文献

这篇文章研究真实世界(互联网上)的文章的关键词抽取。这些文章的特点是在内容质量和主题上都有很大的差别。

他们制作了 OpenKP 数据集:github 主页

然后开发了一种名为 BLING-KPE 的神经网络关键词抽取模型。

关键词抽取任务

经典的关键词抽取一般分为两步:

  1. 候选词抽取
  2. 候选词重要性评估

关键词抽取的方法有:

  1. 启发式规则
  2. 预定义词语结构
  3. 使用文中的实体作为候选词

候选词重要性评估有监督学习和无监督学习的方法。

无监督学习通过文中短语之间的图关系和主题建模中的主题信息。(Maria P. Grineva, Maxim N. Grinev, and Dmitry Lizorkin. 2009. Extracting key terms from noisy and multitheme documents. In Proceedings of the 18th International Conference on World Wide Web, WWW 2009, pages 661–670.)(Zhiyuan Liu, Wenyi Huang, Yabin Zheng, and Maosong Sun. 2010. Automatic keyphrase extraction via topic decomposition. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP 2010, pages 366– 376.)( Zhiyuan Liu, Peng Li, Yabin Zheng, and Maosong Sun. 2009b. Clustering to find exemplar terms for keyphrase extraction. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, EMNLP 2009, pages 257–266.)

监督学习则形成了一个分类问题或者排名问题,会结合词频、文章结构和外部资源信息(例如维基百科和查询日志)

神经网络把关键词抽取看作是一个 seq2seq 任务

引用的文献

Wan X , Xiao J . CollabRank: Towards a Collaborative Approach to Single-Document Keyphrase Extraction[C]// COLING 2008, 22nd International Conference on Computational Linguistics, Proceedings of the Conference, 18-22 August 2008, Manchester, UK. DBLP, 2008.

评论无需登录,可以匿名,欢迎评论!