关系提取综述笔记
信息抽取(IE, Information Extraction)是从无结构文本中提取有结构信息,关系抽取(RE, Relation Extraction)更关注实体之间的关系。IE是自然语言处理(NLP, Natural Language Processing)的子任务,而RE是IE的子任务。
一个完整的RE系统包括:
- 命名体识别器:识别文本中的命名体
- 实体连接器:将实体与已存在的知识图谱相连
- 关系判别器:通过给定上下文确定实体之间的关系
RE的历史和以往的工作
发展脉络:基于模式的→统计学方法→神经网络
模式识别方法
模式识别方法:最早通过句子分析工具识别文本中的语法元素并从这些元素中自动构造模式规则,其最大限制是由于自动构造的模式容易出错,所以大多需要人类专家进一步检查。
统计学方法
相较于模式识别方法统计学方法(SRE, Statistical Relation Extraction )对人为干预的需求更小,典型的统计学方法是设计了实体对的词汇特征,语法特征和语义特征,将这些特征及其相应上下文输入到关系分类器中,此处简要介绍了几种统计学方法:
- 基于核方法的支持向量机测量文本实例之间的相似性
- 提取和推断隐藏在文本中的潜在信息,图方法在定向非循环图中提取了文本,实体和关系的依赖,之后使用推理模型去识别正确的关系
- 嵌入式模型将文本编码到低维语义空间,之后再从嵌入文本中提取关系
统计学方法仍面临一些挑战,它需要人们设计特征和核函数,虽然图方法和嵌入式方法可以在很少人为干预的条件下进行预测,但是他们受限于模型的能力。在这些论文中系统地介绍了SRE(Zelenko et al., 2003; Bach and Badaskar, 2007; Pawar et al., 2017)。
神经网络模型
神经网络模型(NRE, Neural Relation Extraction)在关系提取中引入了神经网络来自动地提取文本特征,并且相比于SRE,NRE能更有效地提取文本信息并适用于更广泛的数据。NRE主要研究如何设计网络来更有效地捕获文本信息。
- 递归神经网络(RNNs, Recursive Neural Networks)去递归地学习句子的组成表示
- 卷积神经网络(CNNs, Convolutional Neural Networks)有效地模拟局部文本模式
- 循环神经网络(RNNs, Recurrent Neural Networks)能很好地处理很长的序列数据
- 图神经网络(GNNs, Graph Neural Networks)为推理构建词图或者实体图
- 基于注意力的神经网络(Attention-based Neural Networks)利用注意力机制聚合了全局的关系信息
不同于SRE模型人工设计特征,NRE主要利用词嵌入和位置嵌入,词嵌入是NLP中最常用的输入表示,它将词的语义信息编码到向量中,而位置嵌入用于将文本中实体和词的距离信息集成到模型中来指定词和实体的相对距离。近来,迁移模型和预训练模型的探索将NRE带到了一个新的高度。
RE的研究方向
以往的工作虽取得不错的效果,但是那些模型往往需要大量的人工标注数据,并且仅仅提取单个句子中的预定义关系因此很难在复杂的显示场景中取得很好的效果。为了解决这个问题,论文中将RE的研究总结为了四个方向,并分别做了综述和对他们各自前景的做了展望。
如何利用更多数据
有监督的NRE模型缺乏大规模高质量的训练数据,而远程监督(DS, Distant Supervision)通过自动将非结构化数据与知识图谱对齐来解决这个问题。但是这同样引入了另一个错误标注的问题,这将给数据带来很多噪声,而现有的用来消除噪声问题的方法可被分为以下几种:
- 采用多示例学习(multi-instance learning):其将具有相同实体对的句子放在一起,选择其中informative的实例。有的利用图模型去挑选informative的句子,还有一些使用简单的启发式选择策略,后来有人设计了注意力机制去挑选informative实例。
- 结合上下文信息:将知识图谱作为额外的信息来帮助挑选实例和采用多语言的语料库用于信息的一致性和互补性
- 采用复杂的机制和训练策略:通过将不同的结构和训练策略结合在一起构成一个混合模型,强化学习(reinforcement learning)和对抗训练(adversarial training)同样被用在DS中。
寻找更有效的学习模型
现实世界的关系模型通常是一种长尾数据(long-tail data),即大部分关系类别的样本占很小一部分,小部分关系类别的样本占大多数。这要求学习模型能很好地适应长尾数据,小样本学习(Few-Shot Learning)就是关注于这个问题的。Han et al. (2018d)构建了一个小样本数据集,其banchmark采用N-way K-shot设定,即从元数据集(Meta-dataset)中随机抽取N类(N-way)样本,每类样本随机抽取K个(K-shot)实例作为Support Set,剩下的作为Query Set。少样本学习的一般思想是学习一个良好的实例表示或者从现有的大规模数据中学习一个快速适应的方法并转移到新任务上去。现在主要有两种方法来用于小样本学习:
- 度量学习(Metric Learning):度量学习是尝试去学习一种距离度量使得相似的样本距离近,不相似的样本距离远。而这里的度量学习则尝试去学习一种能最大程度对query进行分类的语义度量
- 元学习(Meta Learning):元学习是学习如何学习的一种学习方式,旨在通过元训练数据学习参数的初始化和优化的方法。
少样本学习已取得很大进展但仍有很多挑战,Gao et al. (2019)提出了两个值得研究的问题:
- 少样本模型的跨领域适应问题
- 少样本的none-of-the-above(NOTA)探测:识别在query instance中不属于任何一个已经列举出来的关系。
- 除此之外,现有的评估方法通常过度评估少样本RE,因为few-shot RE通常随机选取的N个类别,而这些类别通常只有很少实例从而导致变成了一个非常简单的分类任务。
处理复杂语境(context)
文章(documents)中的很多关系是存在于句子之间的,而现有的方法大多数只关心句子内部的关系,现在已经有了一些工作是关于多句子关系提取的:
- 句法分析:句法分析是分析句子中结构关系和依存关系的,其依赖于从不同句法结构中提取的文本特征,例如指代注释(coreference annotations),依存树(dependency parsing trees)和语篇关系(discourse relations)及用于连接文档的句子(connect sentences in documents)
- 构建跨句(inter-sentence)的实体图:利用实体间的多跳路径(multi-hop path)来推测正确的关系
- 图结构神经网络(graph-structured neural networks):为关系提取通过采用图结构去模拟句间(cross-sentence)依赖带来了记忆和推理能力
Quirk and Poon(2017); Peng et al. (2017)、Li et al. (2016); Peng et al. (2017)、Yao et al. (2019)等人提出了一些篇章级(document-level)的数据集。论文中作者还提出了关于处理复杂上下文几个值得研究的方向:
- 从复杂语境提取关系需要阅读(reading),记忆(memorizing),推理(resoning)的能力来从许多句子之间发现关系
- 更多形式的语境也是值得探索的,例如提取文章之间的关系和理解基于异构数据(heterogeneous data)的关系信息
- 为关系提取利用获取外部数据的搜索引擎自动搜索分析语境
面向更开放的领域
大多关系提取模型都依赖于预定义的关系集合,然而现实世界的关系通常是复杂的而且难以由人列举完整的,因此需要RE系统不依赖于预定义的关系模式,能在开放场景工作:
- 开放信息提取(Open Information Extraction, Open IE)能从文本中提取关系短语和实体(argument)而不依赖于指定关系类型。
- 关系发现(Relation Discovery)旨在发现看不见的关系类型。Yao et al. (2011);Marcheggiani and Titov (2016)提出使用生成模型并将这些关系当作潜变量(latent variables)。Shinyama and Sekine (2006); Elsahar et al. (2017); Wu et al. (2019)将关系发现当作聚类任务。
而对于开放领域的研究,作者还认为有以下一些有待研究的问题:
- 规范化关系短语和实体(argument)在Open IE的下游任务中非常重要,如果不规范提取出来的关系可能会是重复的或模糊的
- 不适用(Not Applicable, N/A)关系在关系发现中几乎没有解决,在以往的研究中假设句子中的实体之间总是有关系的,然而现实世界的场景中的大多数实体对没有关系,并且忽略他们或者使用简单的启发式方法很可能导致不好的结果。
其他挑战
作者在这一节还分析并提出了两个RE模型的其它挑战。
从文本或名字中学习
在RE过程中实体的上下文及其名字都为分类提供了有用的信息。名字提供了实体的类型信息,帮助缩小可能的关系范围,在训练过程中还能形成实体嵌入来帮助关系分类。另一方面关系通常能从实体周围的语义中提取出来,某些情况下只能通过上下文推理来隐含地推断关系。论文中还做了一个小实验,分别对应三种情况:(1)将名字和文本都作为输入,(2)将实体名字用特殊标记替换(mask)并和文本作为输入,(3)只将实体名字作为输入。实验结果显示第一种情况的分类结果明显优于后两种。而且只用名字的实验结果要优于只用文本的实验结果。因此作者得出两个结论:
- 名字和文本都为RE提供了重要信息
- 现有的最优模型和基准中实体名字对结果贡献更大
我们的直觉是实体的上下文应该对RE的贡献更大,但是实验结果却与我们的直觉相悖。
面向特殊领域(special interest)的RE数据集
对于有监督关系提取的数据集有:
- MUC (Grishman and Sundheim, 1996)
- ACE-2005 (Ntroduction, 2005)
- SemEval-2010 Task 8 (Hendrickxet al., 2009)
- KBP37 (Zhang and Wang, 2015)
- TACRED (Zhang et al., 2017)
而对于远程监督有NYT-10 (Riedel et al., 2010),少样本RE有FewRel (Han et al., 2018d),文章级关系提取有DocRED(Yao et al., 2019)。
然而很少有面向特殊领域的数据集,对于跨句子(cross-sentence)(两个实体不在一个句子中)就没有专门的数据集来帮助研究,虽然有文章级数据集包含这种情况,但很难对分析带来很大的帮助。一般研究人员使用手工从一般数据集中挑选有用的子集或者公告案例研究(case study)来表明他们模型在特殊问题的有效性,这难以令人信服并且缺乏定量分析,因此构建公认的,精心设计的并且细粒度(fine-grained)的数据集非常重要。
总结
本文作者对关系提取做了系统的综述,概括了四个有希望增强关系提取模型的方向(利用更多数据,寻找更有效的学习方法,处理复杂语境,面向开放领域),并进一步研究了RE的两个关键挑战。

浙公网安备 33010602011771号