simple bert model 用于短文本关系抽取

Simple BERT Models for Relation Extraction and Semantic Role Labeling

1 论文动机

  • 提出了一种基于Bert的模型,来进行关系抽取(Relation Extraction)和语义角色标注(Semantic Role Labeling)
  • 不需要结合词汇和句法的特征,达到了SOTA的表现,为后续的研究提供了Baseline

2 模型介绍

2.1 关系抽取模型

关系抽取的模型示意图,如图所示:

输入句子的构成为: [[CLS] sentence [SEP] subject [SEP] object [SEP]]

为了防止过拟合,对句子中的主语实体和宾语实体使用特殊的token进行mask,比如说[S-PER]表示代表人的主语实体。将经过Mask后的句子经WordPiece分词器分词后,输入给Bert的编码器

使用[公式]表示[[CLS] sentence [SEP]]之间词汇经Bert得到的向量表示,这里的[公式]并不一定是句子的长度,因为分词器可能会把单词分成几个子单词

使用[公式]表示主语实体的向量

使用[公式]表示宾语实体的向量

定义相对于主语实体的位置序列为[公式]

[公式]

式中,[公式][公式]分别为主语实体的开始和结束位置,[公式]表示了和主语实体的相关位置

同样地,定于宾语实体的位置序列为[公式]

将位置序列转换为位置向量,和Bert的表示向量[公式]进行拼接,如图中(a)所示

然后将向量序列输入给一个Bi-LSTM,获取每个方向上的最后一个隐含层状态

输入给一个单隐含层的神经网络进行关系预测

2.2 语义角色标注模型

语义角色标注的模型示意图,如图所示:

2.2.1 Predicate sense disambiguation,谓词意义消歧

将这个任务当做序列标注进行处理,句子经WordPiece分词器分词后,任何单词的第一个token标注为O,其余的token标注为X。经Bert后的向量表示为[公式],和谓词指示器嵌入进行拼接,后经单隐含层的神经网络进行分类预测

2.2.2 Argument identification and classification,论据识别和分类

模型结构如上图所示,输入序列为 [[CLS] sentence [SEP] predicate [SEP]],经Bert后得到表示向量和指示器嵌入进行拼接,经过单层的Bi-LSTM后得到序列各个单词的隐含层表示为[公式],对于预测词的表示向量[公式],和每一个token的表示向量[公式]继续拼接,输入给单隐含层的神经网络进行分类预测

3 实验表现

关系抽取模型在TACRED数据集上和不同模型的指标对比如图所示:

语义角色标注模型在CoNLL 2009和out-of-domain数据集上和不同模型的指标对比如图所示:

posted @ 2020-03-29 16:02  深度预习  阅读(1571)  评论(0编辑  收藏  举报