simple bert model 用于短文本关系抽取

Simple BERT Models for Relation Extraction and Semantic Role Labeling

1 论文动机

提出了一种基于Bert的模型，来进行关系抽取（Relation Extraction）和语义角色标注（Semantic Role Labeling）
不需要结合词汇和句法的特征，达到了SOTA的表现，为后续的研究提供了Baseline

2 模型介绍

2.1 关系抽取模型

关系抽取的模型示意图，如图所示：

输入句子的构成为： [[CLS] sentence [SEP] subject [SEP] object [SEP]]

为了防止过拟合，对句子中的主语实体和宾语实体使用特殊的token进行mask，比如说[S-PER]表示代表人的主语实体。将经过Mask后的句子经WordPiece分词器分词后，输入给Bert的编码器

使用 $\mathcal{H}=\left[h_{0}, h_{1}, \ldots, h_{n}, h_{n+1}\right]$ 表示[[CLS] sentence [SEP]]之间词汇经Bert得到的向量表示，这里的 $n$ 并不一定是句子的长度，因为分词器可能会把单词分成几个子单词

使用 $\mathcal{H}_{s}=\left[h_{s_{1}}, h_{s_{1}+1}, \ldots, h_{s_{2}}\right]$ 表示主语实体的向量

使用 $\mathcal{H}_{o}= \left[h_{o_{1}}, h_{o_{1}+1}, \dots, h_{o_{2}}\right]$ 表示宾语实体的向量

定义相对于主语实体的位置序列为 $\left[p_{0}^{s}, \ldots, p_{n+1}^{s}\right]$ ：

$p_{i}^{s}=\left\{\begin{array}{ll}{i-s_{1},} & {i<s_{1}} \\ {0,} & {s_{1}<i<s_{2}} \\ {i-s_{2},} & {i>s_{2}}\end{array}\right.\\$

式中， $s_1$ 和 $s_2$ 分别为主语实体的开始和结束位置， $p_{i}^{s} \in \mathbb{Z}$ 表示了和主语实体的相关位置

同样地，定于宾语实体的位置序列为 $\left[p_{0}^{o}, \ldots, p_{n+1}^{o}\right]$

将位置序列转换为位置向量，和Bert的表示向量 $\mathcal{H}$ 进行拼接，如图中（a）所示

然后将向量序列输入给一个Bi-LSTM，获取每个方向上的最后一个隐含层状态

输入给一个单隐含层的神经网络进行关系预测

2.2 语义角色标注模型

语义角色标注的模型示意图，如图所示：

2.2.1 Predicate sense disambiguation，谓词意义消歧

将这个任务当做序列标注进行处理，句子经WordPiece分词器分词后，任何单词的第一个token标注为O，其余的token标注为X。经Bert后的向量表示为 $\mathcal{H}$ ，和谓词指示器嵌入进行拼接，后经单隐含层的神经网络进行分类预测

2.2.2 Argument identification and classification，论据识别和分类

模型结构如上图所示，输入序列为 [[CLS] sentence [SEP] predicate [SEP]]，经Bert后得到表示向量和指示器嵌入进行拼接，经过单层的Bi-LSTM后得到序列各个单词的隐含层表示为 $\mathcal{G}=\left[g_{1}, g_{2}, \ldots, g_{n}\right]$ ，对于预测词的表示向量 $g_{p}$ ，和每一个token的表示向量 $g_{i}$ 继续拼接，输入给单隐含层的神经网络进行分类预测