第三周paper总结 | 小僧有点二

三篇论文：

Pre-trained Models for Natural Language Processing: A Survey，预训练模型综述
GCDT: A Global Context Enhanced Deep Transition Architecture for Sequence Labeling，使用L-GRU、T-GRU门控单元加深隐状态联系
Adversarial Transfer for Named Entity Boundary Detection with Pointer Networks，使用指针网络检测实体边界

The first paper, pre-trained model

《Pre-trained Models for Natural Language Processing: A Survey》

这篇论文覆盖得很全面，所以大都也相对介绍得不是很深，不过它用它的方法对预训练模型做了分类，分类的这张图可以收藏，它对现有的预训练模型有哪些表现得很清楚。

model

《GCDT: A Global Context Enhanced Deep Transition Architecture for Sequence Labeling》

旨在解决，RNN模型在相邻词之间的隐状态连接较浅，因为周期性架构的特性使得RNN偏向于最新的输入标记，对于全局信息建模不够充分，从而限制RNN模型性能的问题。

使用特殊的门控单元L-GRU、T-GRU，加深句中的每个词位置的状态转换路径，并进一步利用句子级的全局信息来增强每个词的局部表示。

model

分三个部分：

所以总的来讲创新点就是使用了L-GRU和T-GRU。

GRU

GRU就是LSTM的一种变体，将遗忘门和输入门合成为一个单一的重置门。下图是GRU的结构和对应的公式表达。
L-GRU

L-GRU相比于GRU的改变是在计算候选候选隐层状态时加入一个额外线性输入项，所以L-GRU是包含线性输入和非线性输入的变形，优点是在很大程度上保留了输入的线性结构，同时防止梯度消失问题的出现。
T-GRU

T-GRU相比于GRU最大的改变是状态转移变换仅仅是隐层状态之间的变换，不包含输入，所以也就在一定程度上加大了转移结构的深度。

《Adversarial Transfer for Named Entity Boundary Detection with Pointer Networks》

论文提出了使用指针网络的实体边界标记方法，还将对抗迁移学习整合到end to end序列标记模型中，来减少领域之间数据分布的差异，以学习跨领域的通用表示。两个领域训练编码器，源领域训练解码器。

model

表示层用词级表示和字符级表示拼接，内容编码部分用双向GRU，这些没什么可说的。
tag解码部分使用了指针网络，结构和公式见下方图。
- 作者认为不是所有词都需要通过RNN，例如图中的例子，只需要将实体的开始边界通过RNN；
- 只有当前input是开始边界时，模型才去检测实体边界，否则就将解码器状态切换到非活动状态；
- 检测实体边界，通过使用“注意力机制”，在解码过程中计算输入序列中所有可能位置是结束边界的概率分布，h是encoder的隐状态，d是decoder的隐状态，P表示给定起始边界 $W_j$ ，单词 $W_i$ 是结束边界的概率
领域判别器判断训练实例属于源领域还是目标领域，对抗训练去增强中间表示的泛化性，这部分和上周读的论文没什么区别。

Pointer Network

[1] Pre-trained Models for Natural Language Processing: A Survey.

[2] GCDT: A Global Context Enhanced Deep Transition Architecture for Sequence Labeling.

[3] Adversarial Transfer for Named Entity Boundary Detection with Pointer Networks.