第七周paper总结

两篇论文:

  • Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension 做阅读理解的迁移学习任务。
  • Dice Loss for Data-imbalanced NLP Tasks 使用Dice Loss,平衡数据的正负例。

摆正想法:

​ 实体识别任务的迁移为主体,实体识别任务使用阅读理解的目的是为了更好地确定实体边界,阅读理解任务只是辅助。

博客地址:https://ian-peace.github.io

工作进展

对论文《A Unified MRC Framework for Named Entity Recognition》的想法

  1. 论文只用了普通的MRC结构(bert+分类器),如果用专门来做领域迁移的MRC模型,表现应该会更好。

    1. 近两年都没有相关研究,师兄说阅读理解跨领域的研究动机不足,现在在语言模型的作用下,先在大数据上跑一遍再去特定领域结果就已经很不错了,并且如果两个领域区别大的话,就是需要用到不同的知识库,那就是KBQA的任务了;

    2. 17年微软发过一篇文章,《Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension》,它是用来做阅读理解的迁移学习的,后面论文部分会有介绍。

    3. 引入外部知识的阅读理解

      • Multi-task Learning with Sample Re-weighting for Machine Reading Comprehension,19NAACL

        探索Multi-task Learning在阅读理解上的效果,不过不是用Bert模型,而是基于LSTM结构,该模型可以应用于不同领域的各种MRC任务。

      • MultiQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension,19ACL

        探索了不同阅读理解数据集间的迁移特性,主要尝试回答下面几个问题:

        • Do models generalize to unseen datasets?
        • Does pre-training improve results on small datasets?
        • Does context augmentation improve performance?
        • Does training on multiple datasets improve BERTQA?
      • Investigating Prior Knowledge for Challenging Chinese Machine Reading Comprehension,未发表

        文章构建了一个中文阅读理解数据集C3,并探索了语言信息、领域和通用知识对中文阅读理解的影响。

    4. 前两天看到知乎上有一篇文章,它在讲,后Bert时代NLP任务的过程基本是Pre-training+(Post-training)+fine-tune

      而在一个具体的任务上Pre-training和fine-tune可操作的空间并不大,那么关键在于Post-training。作者将Post-training细分为:

      • 无监督Domain预训练,类似于Pre-training,只是用来Domain的数据
      • 有监督Multi-task迁移训练,作者在想,能否将阅读理解作为一个中间结构,将不同的任务都转换为阅读理解问题得到大量的有标注数据,然后利用这些具有统一表示的有标数据进行multi-task Post-training,然后再在目标任务上fine-tune。通过这些大量的有监督数据来学习通用的语言、语法、语义信息。
    5. 但这么大的量级的实验感觉我们很难实现,不过如果只用两三个任务呢?实体识别和实体关系抽取?或是其他与实体相关的、数据更多的任务。即源领域为NER任务,目标领域为关系抽取任务,都转化成阅读理解任务,再在目标领域进行实体识别。

  2. 论文Loss使用交叉熵,是否可以使用《Dice Loss for Data-imbalanced NLP Tasks》中的Dice Loss?

The first paper, Transfer Learning for MRC

《Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension》

为了解决在新领域人工标注数据不充足以及模型迁移的问题,论文利用已有领域中的大规模高质量监督数据为基础进行训练,让模型学习在文本上自动生成问答对的能力,然后迁移到无监督数据的新领域中,在新领域中自动合成QA对,替代人工标注,以此来训练该领域的MRC系统。

模型分为两个模块:

  • 答案生成模块,抽取式任务,用序列标注的方法预测每个单词是否为答案,抽取文本中的关键语义概念作为答案,输入问题生成模块。
  • 问题生成模块,生成式任务,根据答案和文本生成问题。

**结果:**作者先用SQuAD数据集训练模型,然后把它应用到NewsQA数据集上,发现它的效果与直接在NewsQA上训练的模型相差不多。所以可以说它的迁移效果还是挺好的,那能否把这个想法用在阅读理解做NER任务上。很直接的想法是:

  • 在源领域训练,在目标领域通过序列标注生成答案
  • 用目标领域文本和上一步生成的答案,生成问题

但命名实体识别任务的问题,应该是固定的。如果让模型自动生成QA对,那训练完成后,用固定的问题做阅读理解拿到实体识别结果,达到的表现能否和这篇论文一样,和直接在目标领域训练的结果相差不大?

The second paper, Dice Loss for NLP

《Dice Loss for Data-imbalanced NLP Tasks》

论文解决的是NLP任务中数据不平衡的问题,例如在命名实体识别任务中:

我们一般使用BIEOS,如果我们把O视为负例,其他视为正例,那么负例数和正例数之比是相当大的,这种不平衡会导致两个问题:

  • 训练与测试不匹配。占据绝大多数的负例会支配模型的训练过程,导致模型倾向于负例,而测试时使用的F1指标需要每个类都能准确预测;
  • 简单负例过多。负例占绝大多数也意味着其中包含了很多简单样本,这些简单样本对于模型学习困难样本几乎没有帮助,反而会在交叉熵的作用下推动模型遗忘对困难样本的知识;

总的来说,大量简单负例会在交叉熵的作用下推动模型忽视困难正例的学习,而实体识别任务往往使用F1衡量,从而在正例上预测欠佳直接导致了F1值偏低。

作者认为这种问题是交叉熵带来的,交叉熵“平等”地看待每一个样本,无论正负,都尽力把它们推向1(正例)或0(负例)。

但实际上,对分类而言,将一个样本分类为负只需要它的概率<0.5即可,完全没有必要将它推向0。

由此提出一个基于Dice Loss的自适应损失——DSC,在训练时推动模型更加关注困难的样本,降低简单负例的学习度,从而在整体上提高基于F1值的效果。结果在词性标注数据集、命名实体识别数据集、问答数据集都超过了当前最佳结果。

摆正想法

实体识别任务使用阅读理解的目的是为了更好地确定实体边界,因为阅读理解任务有对于语义块的划分(span操作),主体是实体识别任务,阅读理解只是辅助。

语义方面,NER的语料其实也不缺,当下bert已经获取的知识足够多,少的只是一些不常见领域的语料,那实体迁移任务,要考虑的应该是问答的迁移库,以及问答提供的划分边界的能力,而非问答获得的语义知识。

  1. 回归之前实体识别迁移的进程

  2. LM做实体识别迁移的模型中,能否添加阅读理解的词边界信息?

  3. 或者是阅读理解做NER任务的模型中,是否可以添加LM用来进行迁移?当前思考目标

  4. 在第2点中,要考虑不同领域,实体类别不一致,是如何做到的?

Reference

[1] Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension.

[2] Dice Loss for Data-imbalanced NLP Tasks.

[3] 论文阅读笔记《Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension》. 链接

[4] 后Bert时代机器阅读理解. https://zhuanlan.zhihu.com/p/68893946

[5] ACL2020 | 香侬科技提出使用Dice Loss缓解数据集数据不平衡问题. https://zhuanlan.zhihu.com/p/128066632

[6] 论文分享:Dice Loss for Data-imbalanced NLP Tasks. https://zhuanlan.zhihu.com/p/106802620

Author: Ian
Link: http://ian-peace.github.io/2020/04/25/20200425paper/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
微信订阅号