第四周paper总结

两篇论文:

  • Neural Adaptation Layers for Cross-domain Named Entity Recognition,在基础的迁移学习模型上添加了自适应层
  • Zero-Resource Cross-Domain Named Entity Recognition,如题,提出了只使用source领域的数据进行训练的跨领域实体识别模型

博客地址:https://ian-peace.github.io

The first paper, Adaptation Layers

《Neural Adaptation Layers for Cross-domain Named Entity Recognition》

​ 这篇论文是18年的,比较旧,看它主要是因为它添加了自适应层,这个概念在其他论文里提到了很多次。文章提到当时NER任务的主要迁移学习模型包括INIT和MULT两种。

Init model and Mult model

  • INIT就是使用Target数据在通过Source数据训练的模型上进行微调,且在两个领域共享word embedding。
  • MULT就是多任务学习,它同时使用两个领域的数据训练两个模型,除CRF层外其他层的参数都共享。

缺点:

  1. 相同词在不同领域表达的意义可能不同,即存在domain shift(域位移),所以共享word embedding是不合适的。
  2. 这两种模型都只是针对最后的CRF层进行再训练,指望通过CRF就能较好地捕捉不同领域的语义信息,作者认为不够现实。
  3. 在不同特定领域进行迁移,就需要花费大量的时间重新在特定语料上对word embedding进行训练,这不现实。

Method

论文方法

在INIT模型基础上,增加了三个自适应层,且不同层有不同的learning rate。

  • Word Adaptation Layer

    初衷是为了既可以通过利用target领域和source领域的不同数据去学习特定领域下的不同word embedding,同时又可以不对巨大的source domain corpora进行再训练,因此一个很自然的想法就是将target embedding与source embedding关联起来,即完成两个embedding空间的相关映射。

    具体做法:针对在source和target两个领域数据中出现频率较多的词建立词典,见公式,词典以二元组的形式构建,其中$$f(w)$$ 是单词出现得频率,$$\phi$$是阈值。之后用词典中的两项分别构建两个word embedding VS和VT,目标即为学习到最优的变换矩阵Z,使得其将target vector representation转换后与source vector representation的差异最小。其中c是confidence系数,由这三个公式去求,前两个是为了归一化f,第三个公式是根据Dice系数得到的,它是一种集合相似度的度量函数,通常用于计算两个样本的相似度。

  • Sentence Adaptation Layer

    Word自适应层仅仅是在单词层面上关联两个领域,而且是上下文无关的。为了在embedding上添加上下文信息,在word自适应层之后增加了一层BiLSTM作为sentence自适应层,这一层对每个target领域的实例的embedding投影进行预编码,即对word embedding添加上下文信息进一步转换。同时该层还可以根据上下文调整OOV的表示。

  • Output Adaptation Layer

    由于source领域和target领域模型得到的预测标签分布可能不一致,例如,“Taylor released her new songs”这句话中的第一个单词,source领域被标记为人名,target领域被标记为音乐家。所以对实体进行重新分类和重新识别就是必要的,故在BiLSTM结构之后添加了一层BiLSTM作为Output自适应层,同时该层也避免了直接在base模型上更新参数导致从source领域迁移得到的知识被损失掉的问题。

实验

消融实验,证明了三种自适应层的有效性。

结论

  • 比较有创新点的工作是word自适应层的提出。
  • 在跨领域NER任务上提出了一种新颖、轻量的迁移学习方法,且该方法还可以应用于其他跨领域任务中。

The second paper, Zero-Resource for NER

《Zero-Resource Cross-Domain Named Entity Recognition》

现有的跨领域实体识别模型依赖于target领域大量未标记或已标记的语料,但是低资源的目标领域收集数据很困难。这篇论文提出了一个不使用任何外部资源的跨领域NER模型,即只使用source领域的数据进行训练。具体实现方法也是论文的两个创新点。

Model

两个创新点

  1. MTL: multi-task learning

    由于跨领域命名实体之间的巨大差异,导致无监督跨领域NER模型无法识别命名实体,那论文就提出了一个新的目标函数用于预测每个单词是否为实体,就是改成二分类任务,以此来学习命名实体的通用表示,从而增强领域自适应性的鲁棒性。在图中表示为任务1,任务2才是对实体类别的具体判断。

  2. MoEE: Mixture of Entity Experts

    我们可以注意到,在许多情况下,不同的实体类别可能具有相似或相同的上下文。例如:“Arafat subsequently canceled a meeting between Israeli and PLO officials,”这个句子中的第一个单词是人名,但通过上下文来看这里也可以被替换为一个机构名。这说明了不同实体类别之间的混乱性,这样的实体判断在零资源的目标领域会更加困难,也会导致模型容易在source领域过拟合从而损失在target领域的生成能力。所以作者提出了MoEE结构,每个单词实体类型的判断由所有实体专家一起加权判断。在图中表示为任务2.

    具体来讲,就是每一个实体类别都被看作是一个由线性层构成的实体专家,包括非实体类别。这里的The expert gate 由一个线性层和一个softmax层组成,softmax层生成实体专家的confidence分布。最后,The meta-expert feature基于这个confidence分布,整合所有专家的特征。

具体过程

​ 整个过程对应的公式如下:

Formula

​ 两个任务以及The expert gate对应的三个损失函数分别为右侧的三个式子。

实验

  • 实验数据:CoNLL-2003 English NER data作为source data,SciTech News作为target data。Embedding使用FastText embedding和BERT,以解决OOV的问题。

  • 实验结果:

    Result

    1. 加上提出的两个任务,比基础的BiLSTM-CRF有明显的提高,证明了有效性。
    2. 固定的FastText embedding结果比BERT好,作者推测是由于Bert利用字词embedding,损失了一部分词级别信息。
    3. 最好的结果接近前两周我们提到的论文《Cross-Domain NER using Cross-Domain Language Modeling》的结果,但该论文使用了大量的数据语料,包括source和target两个领域。
    4. 论文还对confidence分布作了可视化,颜色越深代表实体专家给这个词的权重越大。

Reference

[1] Neural Adaptation Layers for Cross-domain Named Entity Recognition.

[2] Zero-Resource Cross-Domain Named Entity Recognition.

[3] NER- 命名实体识别(Chinese NER 、Cross-domain NER). https://zhuanlan.zhihu.com/p/67458346

[4] 零资源跨领域命名实体识别. https://zhuanlan.zhihu.com/p/107747571.

Author: Ian
Link: http://ian-peace.github.io/2020/04/02/20200401paper/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
微信订阅号