第四周paper总结 | 小僧有点二

两篇论文：

Neural Adaptation Layers for Cross-domain Named Entity Recognition，在基础的迁移学习模型上添加了自适应层
Zero-Resource Cross-Domain Named Entity Recognition，如题，提出了只使用source领域的数据进行训练的跨领域实体识别模型

博客地址：https://ian-peace.github.io

The first paper, Adaptation Layers

《Neural Adaptation Layers for Cross-domain Named Entity Recognition》

这篇论文是18年的，比较旧，看它主要是因为它添加了自适应层，这个概念在其他论文里提到了很多次。文章提到当时NER任务的主要迁移学习模型包括INIT和MULT两种。

Init model and Mult model

INIT就是使用Target数据在通过Source数据训练的模型上进行微调，且在两个领域共享word embedding。
MULT就是多任务学习，它同时使用两个领域的数据训练两个模型，除CRF层外其他层的参数都共享。

缺点：

相同词在不同领域表达的意义可能不同，即存在domain shift（域位移），所以共享word embedding是不合适的。
这两种模型都只是针对最后的CRF层进行再训练，指望通过CRF就能较好地捕捉不同领域的语义信息，作者认为不够现实。
在不同特定领域进行迁移，就需要花费大量的时间重新在特定语料上对word embedding进行训练，这不现实。

Method

论文方法

在INIT模型基础上，增加了三个自适应层，且不同层有不同的learning rate。

Word Adaptation Layer

初衷是为了既可以通过利用target领域和source领域的不同数据去学习特定领域下的不同word embedding，同时又可以不对巨大的source domain corpora进行再训练，因此一个很自然的想法就是将target embedding与source embedding关联起来，即完成两个embedding空间的相关映射。

具体做法：针对在source和target两个领域数据中出现频率较多的词建立词典，见公式，词典以二元组的形式构建，其中$$f(w)$$ 是单词出现得频率，$$\phi$$是阈值。之后用词典中的两项分别构建两个word embedding VS和VT，目标即为学习到最优的变换矩阵Z，使得其将target vector representation转换后与source vector representation的差异最小。其中c是confidence系数，由这三个公式去求，前两个是为了归一化f，第三个公式是根据Dice系数得到的，它是一种集合相似度的度量函数，通常用于计算两个样本的相似度。
Sentence Adaptation Layer

Word自适应层仅仅是在单词层面上关联两个领域，而且是上下文无关的。为了在embedding上添加上下文信息，在word自适应层之后增加了一层BiLSTM作为sentence自适应层，这一层对每个target领域的实例的embedding投影进行预编码，即对word embedding添加上下文信息进一步转换。同时该层还可以根据上下文调整OOV的表示。
Output Adaptation Layer

由于source领域和target领域模型得到的预测标签分布可能不一致，例如，“Taylor released her new songs”这句话中的第一个单词，source领域被标记为人名，target领域被标记为音乐家。所以对实体进行重新分类和重新识别就是必要的，故在BiLSTM结构之后添加了一层BiLSTM作为Output自适应层，同时该层也避免了直接在base模型上更新参数导致从source领域迁移得到的知识被损失掉的问题。

实验

消融实验，证明了三种自适应层的有效性。

结论

比较有创新点的工作是word自适应层的提出。
在跨领域NER任务上提出了一种新颖、轻量的迁移学习方法，且该方法还可以应用于其他跨领域任务中。

The second paper, Zero-Resource for NER

《Zero-Resource Cross-Domain Named Entity Recognition》

现有的跨领域实体识别模型依赖于target领域大量未标记或已标记的语料，但是低资源的目标领域收集数据很困难。这篇论文提出了一个不使用任何外部资源的跨领域NER模型，即只使用source领域的数据进行训练。具体实现方法也是论文的两个创新点。

Model

两个创新点

MTL: multi-task learning

由于跨领域命名实体之间的巨大差异，导致无监督跨领域NER模型无法识别命名实体，那论文就提出了一个新的目标函数用于预测每个单词是否为实体，就是改成二分类任务，以此来学习命名实体的通用表示，从而增强领域自适应性的鲁棒性。在图中表示为任务1，任务2才是对实体类别的具体判断。
MoEE: Mixture of Entity Experts

我们可以注意到，在许多情况下，不同的实体类别可能具有相似或相同的上下文。例如：“Arafat subsequently canceled a meeting between Israeli and PLO officials,”这个句子中的第一个单词是人名，但通过上下文来看这里也可以被替换为一个机构名。这说明了不同实体类别之间的混乱性，这样的实体判断在零资源的目标领域会更加困难，也会导致模型容易在source领域过拟合从而损失在target领域的生成能力。所以作者提出了MoEE结构，每个单词实体类型的判断由所有实体专家一起加权判断。在图中表示为任务2.

具体来讲，就是每一个实体类别都被看作是一个由线性层构成的实体专家，包括非实体类别。这里的The expert gate 由一个线性层和一个softmax层组成，softmax层生成实体专家的confidence分布。最后，The meta-expert feature基于这个confidence分布，整合所有专家的特征。

具体过程

整个过程对应的公式如下：

Formula

两个任务以及The expert gate对应的三个损失函数分别为右侧的三个式子。

实验

实验数据：CoNLL-2003 English NER data作为source data，SciTech News作为target data。Embedding使用FastText embedding和BERT，以解决OOV的问题。
实验结果：
1. 加上提出的两个任务，比基础的BiLSTM-CRF有明显的提高，证明了有效性。
2. 固定的FastText embedding结果比BERT好，作者推测是由于Bert利用字词embedding，损失了一部分词级别信息。
3. 最好的结果接近前两周我们提到的论文《Cross-Domain NER using Cross-Domain Language Modeling》的结果，但该论文使用了大量的数据语料，包括source和target两个领域。
4. 论文还对confidence分布作了可视化，颜色越深代表实体专家给这个词的权重越大。

Reference

[1] Neural Adaptation Layers for Cross-domain Named Entity Recognition.

[2] Zero-Resource Cross-Domain Named Entity Recognition.

[3] NER- 命名实体识别(Chinese NER 、Cross-domain NER). https://zhuanlan.zhihu.com/p/67458346

[4] 零资源跨领域命名实体识别. https://zhuanlan.zhihu.com/p/107747571.