第六周paper总结 | 小僧有点二

两篇论文：

The first paper, Parsing tree

《A neural transition-based model for nested mention recognition》

论文将嵌套实体识别任务视为一个构造解析树的过程：在每一个时间步中，模型根据当前模型的状态来决定是给指定token赋予一个标签，还是给已经赋予标签的两段实体打上一个更高层次的标签（以此实现了标签的嵌套），再或是跳过当前处理的token，进行对下一个token的处理。

Model

模型包括三个部分：

三种解析操作：

解决：

Result

数据集使用的是ACE04、ACE05、GENIA，都是英文数据集，其中ACE04/05皆包含20%的嵌套实体，GENIA包含10%的嵌套实体。

针对在GENIA数据集上该论文表现不够理想的情况，作者在该数据集上对嵌套实体和非嵌套实体分开进行实验，结果如下：

Result for GENIA data

可以发现，在嵌套部分，提高的幅度更大，这表明模型在处理嵌套表示的有效性。因为ACE数据集比GENIA数据集有更多的嵌套结构，所以该模型在ACE数据集上有更明显的提升。

《A Unified MRC Framework for Named Entity Recognition》

受当前将NLP问题形式化为问答任务的趋势启发，论文不再将NER任务视为一个序列标记问题，而是将其表述为一个机器阅读理解(MRC)任务。

**模型结构：**使用Bert作为主体模型，然后特别地训练三个分类器。

Bert的输入是 ${\{[CLS],q_1,...,q_m,[SEP],x_1,...,x_n\}}$ ，其中 $q \in Q$ 是问题， $x \in X$ 是待抽取实体的句子，Bert的输出是原文的表示矩阵 $E \in R^{n*d}$ 。
三个分类器：
1. 当前token是否为一个实体的开头位置；
  
  $P_{start} = softmax_{row}(E*T_{start}) \in R^{n*2}$ ，其中 $T_{start}$ 是该分类器需要学习的权重， $P_{start}$ 的每一行代表每个索引作为给定查询的实体开始位置的概率分布。
2. 当前token是否为一个实体的结束位置；
  
  $P_{end} = softmax_{row}(E*T_{end}) \in R^{n*2}$ ，其中 $T_{start}$ 是该分类器需要学习的权重， $P_{end}$ 的每一行代表每个索引作为给定查询的实体结束位置的概率分布。
3. 对两个分类器的识别的开头位置和结束位置进行匹配。
  
  首先对 $P_{start}和P_{end}$ 的每行做 argmax，得到两个长度为n的 0-1序列 $I_{start} 和 I_{end}$ ；
  
  然后对任意的开始索引 $i_{start} \in I_{start}$ 和结束索引 $j_{end} \in I_{end}$ ，训练一个二元分类模型来预测它们应该匹配的概率：
  
  $P_{i_{start},j_{end}}=sigmoid(m*concat(E_{i_{start}},E_{j_{end}}))$ ，m是要学习的权重。
训练

三个分类器分别对应三个loss：

$L_{start}=CE(P_{start}, Y_{start})$

$L_{end}=CE(P_{end}, Y_{end})$

$L_{span}=CE(P_{i_{start},j_{end}}, Y_{start, end})$

$LOSS = \alpha L_{start} + \beta L_{end} + \gamma L_{span}$

**Query的选择：**问题的好坏直接影响了模型抽取实体的效果，该论文选择使用实体的标注指南作为Query。

Location: Find locations in the text, including non-geographical locations, mountain ranges and bodies of water
Facility: Find facilities in the text, including buildings, airports, highways and bridges
Organization: Find organizations in the text, including companies, agencies and institutions