第七周paper总结 | 小僧有点二

两篇论文：

Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension 做阅读理解的迁移学习任务。
Dice Loss for Data-imbalanced NLP Tasks 使用Dice Loss，平衡数据的正负例。

摆正想法：

实体识别任务的迁移为主体，实体识别任务使用阅读理解的目的是为了更好地确定实体边界，阅读理解任务只是辅助。

博客地址：https://ian-peace.github.io

工作进展

对论文《A Unified MRC Framework for Named Entity Recognition》的想法

论文只用了普通的MRC结构(bert+分类器)，如果用专门来做领域迁移的MRC模型，表现应该会更好。
1. 近两年都没有相关研究，师兄说阅读理解跨领域的研究动机不足，现在在语言模型的作用下，先在大数据上跑一遍再去特定领域结果就已经很不错了，并且如果两个领域区别大的话，就是需要用到不同的知识库，那就是KBQA的任务了；
2. 17年微软发过一篇文章，《Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension》，它是用来做阅读理解的迁移学习的，后面论文部分会有介绍。
3. 引入外部知识的阅读理解
  - Multi-task Learning with Sample Re-weighting for Machine Reading Comprehension，19NAACL
    
    探索Multi-task Learning在阅读理解上的效果，不过不是用Bert模型，而是基于LSTM结构，该模型可以应用于不同领域的各种MRC任务。
  - MultiQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension，19ACL
    
    探索了不同阅读理解数据集间的迁移特性，主要尝试回答下面几个问题：
    - Do models generalize to unseen datasets?
    - Does pre-training improve results on small datasets?
    - Does context augmentation improve performance?
    - Does training on multiple datasets improve BERTQA?
  - Investigating Prior Knowledge for Challenging Chinese Machine Reading Comprehension，未发表
    
    文章构建了一个中文阅读理解数据集C3，并探索了语言信息、领域和通用知识对中文阅读理解的影响。
4. 前两天看到知乎上有一篇文章，它在讲，后Bert时代NLP任务的过程基本是Pre-training+(Post-training)+fine-tune。
  
  而在一个具体的任务上Pre-training和fine-tune可操作的空间并不大，那么关键在于Post-training。作者将Post-training细分为：
  - 无监督Domain预训练，类似于Pre-training，只是用来Domain的数据
  - 有监督Multi-task迁移训练，作者在想，能否将阅读理解作为一个中间结构，将不同的任务都转换为阅读理解问题得到大量的有标注数据，然后利用这些具有统一表示的有标数据进行multi-task Post-training，然后再在目标任务上fine-tune。通过这些大量的有监督数据来学习通用的语言、语法、语义信息。
5. 但这么大的量级的实验感觉我们很难实现，不过如果只用两三个任务呢？实体识别和实体关系抽取？或是其他与实体相关的、数据更多的任务。即源领域为NER任务，目标领域为关系抽取任务，都转化成阅读理解任务，再在目标领域进行实体识别。
论文Loss使用交叉熵，是否可以使用《Dice Loss for Data-imbalanced NLP Tasks》中的Dice Loss？

The first paper, Transfer Learning for MRC

《Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension》

为了解决在新领域人工标注数据不充足以及模型迁移的问题，论文利用已有领域中的大规模高质量监督数据为基础进行训练，让模型学习在文本上自动生成问答对的能力，然后迁移到无监督数据的新领域中，在新领域中自动合成QA对，替代人工标注，以此来训练该领域的MRC系统。

模型分为两个模块：

答案生成模块，抽取式任务，用序列标注的方法预测每个单词是否为答案，抽取文本中的关键语义概念作为答案，输入问题生成模块。
问题生成模块，生成式任务，根据答案和文本生成问题。

**结果：**作者先用SQuAD数据集训练模型，然后把它应用到NewsQA数据集上，发现它的效果与直接在NewsQA上训练的模型相差不多。所以可以说它的迁移效果还是挺好的，那能否把这个想法用在阅读理解做NER任务上。很直接的想法是：

在源领域训练，在目标领域通过序列标注生成答案
用目标领域文本和上一步生成的答案，生成问题

但命名实体识别任务的问题，应该是固定的。如果让模型自动生成QA对，那训练完成后，用固定的问题做阅读理解拿到实体识别结果，达到的表现能否和这篇论文一样，和直接在目标领域训练的结果相差不大？

The second paper, Dice Loss for NLP

《Dice Loss for Data-imbalanced NLP Tasks》

论文解决的是NLP任务中数据不平衡的问题，例如在命名实体识别任务中：

我们一般使用BIEOS，如果我们把O视为负例，其他视为正例，那么负例数和正例数之比是相当大的，这种不平衡会导致两个问题：

训练与测试不匹配。占据绝大多数的负例会支配模型的训练过程，导致模型倾向于负例，而测试时使用的F1指标需要每个类都能准确预测；
简单负例过多。负例占绝大多数也意味着其中包含了很多简单样本，这些简单样本对于模型学习困难样本几乎没有帮助，反而会在交叉熵的作用下推动模型遗忘对困难样本的知识；

总的来说，大量简单负例会在交叉熵的作用下推动模型忽视困难正例的学习，而实体识别任务往往使用F1衡量，从而在正例上预测欠佳直接导致了F1值偏低。

作者认为这种问题是交叉熵带来的，交叉熵“平等”地看待每一个样本，无论正负，都尽力把它们推向1（正例）或0（负例）。

但实际上，对分类而言，将一个样本分类为负只需要它的概率＜0.5即可，完全没有必要将它推向0。

由此提出一个基于Dice Loss的自适应损失——DSC，在训练时推动模型更加关注困难的样本，降低简单负例的学习度，从而在整体上提高基于F1值的效果。结果在词性标注数据集、命名实体识别数据集、问答数据集都超过了当前最佳结果。

摆正想法

实体识别任务使用阅读理解的目的是为了更好地确定实体边界，因为阅读理解任务有对于语义块的划分(span操作)，主体是实体识别任务，阅读理解只是辅助。

语义方面，NER的语料其实也不缺，当下bert已经获取的知识足够多，少的只是一些不常见领域的语料，那实体迁移任务，要考虑的应该是问答的迁移库，以及问答提供的划分边界的能力，而非问答获得的语义知识。

回归之前实体识别迁移的进程
LM做实体识别迁移的模型中，能否添加阅读理解的词边界信息？
或者是阅读理解做NER任务的模型中，是否可以添加LM用来进行迁移？当前思考目标
在第2点中，要考虑不同领域，实体类别不一致，是如何做到的？

Reference

[1] Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension.

[2] Dice Loss for Data-imbalanced NLP Tasks.

[3] 论文阅读笔记《Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension》. 链接

[4] 后Bert时代机器阅读理解. https://zhuanlan.zhihu.com/p/68893946

[5] ACL2020 | 香侬科技提出使用Dice Loss缓解数据集数据不平衡问题. https://zhuanlan.zhihu.com/p/128066632

[6] 论文分享：Dice Loss for Data-imbalanced NLP Tasks. https://zhuanlan.zhihu.com/p/106802620