三篇论文:
- Pre-trained Models for Natural Language Processing: A Survey,预训练模型综述
- GCDT: A Global Context Enhanced Deep Transition Architecture for Sequence Labeling,使用L-GRU、T-GRU门控单元加深隐状态联系
- Adversarial Transfer for Named Entity Boundary Detection with Pointer Networks,使用指针网络检测实体边界
博客地址:https://ian-peace.github.io
The first paper, pre-trained model
《Pre-trained Models for Natural Language Processing: A Survey》
这篇论文覆盖得很全面,所以大都也相对介绍得不是很深,不过它用它的方法对预训练模型做了分类,分类的这张图可以收藏,它对现有的预训练模型有哪些表现得很清楚。
The second paper, Sequence Labeling
《GCDT: A Global Context Enhanced Deep Transition Architecture for Sequence Labeling》
问题
旨在解决,RNN模型在相邻词之间的隐状态连接较浅,因为周期性架构的特性使得RNN偏向于最新的输入标记,对于全局信息建模不够充分,从而限制RNN模型性能的问题。
解决方法
使用特殊的门控单元L-GRU、T-GRU,加深句中的每个词位置的状态转换路径,并进一步利用句子级的全局信息来增强每个词的局部表示。
模型结构
分三个部分:
- 全局表示的编码器,输入是每个token的字符表示和词向量表示,经过L-GRU和T-GRU,再经过平均池化层得到全局表示向量;
- 序列标注编码器,输入是每个token的字符表示和词向量表示以及全局向量,还有上一步的隐状态,同样经过L-GRU和T-GRU,分别得到前后隐向量进行拼接;
- 序列标注的解码器层,使用softmax得到最大条件概率。
所以总的来讲创新点就是使用了L-GRU和T-GRU。
-
GRU
GRU就是LSTM的一种变体,将遗忘门和输入门合成为一个单一的重置门。下图是GRU的结构和对应的公式表达。
-
L-GRU
L-GRU相比于GRU的改变是在计算候选候选隐层状态时加入一个额外线性输入项,所以L-GRU是包含线性输入和非线性输入的变形,优点是在很大程度上保留了输入的线性结构,同时防止梯度消失问题的出现。
-
T-GRU
T-GRU相比于GRU最大的改变是状态转移变换仅仅是隐层状态之间的变换,不包含输入,所以也就在一定程度上加大了转移结构的深度。
The third paper, pointer network for NER
《Adversarial Transfer for Named Entity Boundary Detection with Pointer Networks》
论文提出了使用指针网络的实体边界标记方法,还将对抗迁移学习整合到end to end序列标记模型中,来减少领域之间数据分布的差异,以学习跨领域的通用表示。两个领域训练编码器,源领域训练解码器。
-
表示层用词级表示和字符级表示拼接,内容编码部分用双向GRU,这些没什么可说的。
-
tag解码部分使用了指针网络,结构和公式见下方图。
- 作者认为不是所有词都需要通过RNN,例如图中的例子,只需要将实体的开始边界通过RNN;
- 只有当前input是开始边界时,模型才去检测实体边界,否则就将解码器状态切换到非活动状态;
- 检测实体边界,通过使用“注意力机制”,在解码过程中计算输入序列中所有可能位置是结束边界的概率分布,h是encoder的隐状态,d是decoder的隐状态,P表示给定起始边界,单词是结束边界的概率
-
领域判别器判断训练实例属于源领域还是目标领域,对抗训练去增强中间表示的泛化性,这部分和上周读的论文没什么区别。
Reference
[1] Pre-trained Models for Natural Language Processing: A Survey.
[2] GCDT: A Global Context Enhanced Deep Transition Architecture for Sequence Labeling.
[3] Adversarial Transfer for Named Entity Boundary Detection with Pointer Networks.