基于多条邻域的上下文感知卷积学习的知识图谱补全
原文
Knowledge Graph Completion by Context-Aware Convolutional Learning with Multi-Hop Neighborhoods
出版
- CIKM '18: Proceedings of the 27th ACM International Conference on Information and Knowledge Management
- October 2018
- Pages 257–266
- https://doi.org/10.1145/3269206.3271769
源码
https://github.com/bkoh509/CACL
申明
版权归原文作者及出版单位所有,如有侵权请联系删除
摘要
知识图谱补全(KCG)的关系学习的主要焦点在于为事实探索丰富的上下文信息。许多最新的模型包含事实序列、实体类型,甚至文本信息。不幸的是,它们中的大多数没有充分利用KG中丰富的结构信息,即每个实体周围的连接模式。
在本文中,我们提出了一种上下文感知卷积学习(CACL)模型,该模型从实体及其多跳邻域中联合学习。
由于我们直接利用包含在每个多跳邻域中的连接模式,因此可以更好地捕捉实体之间的结构角色相似性,从而产生更多信息的实体和关系嵌入。具体来说,CACL根据实体和关系的相对重要性从多跳邻域中收集实体和关系作为上下文信息,并将它们唯一地映射到线性向量空间。我们的卷积架构利用深度学习技术来表示每个实体及其线性映射的上下文信息。因此,我们可以从上下文中精心提取关键连接模式的特征,并将它们合并到评估事实有效性的评分函数中。在最新数据集上的实验结果表明,CACL通过成功地用邻域信息丰富嵌入,性能优于现有方法。
模型
我们的模型分为两大模块,具体如下:
-
上下文信息收集模块
我们首先为一个实体e组建一个多跳邻域Ne,然后对其进行归一化处理,以平均分析G中所有实体e的结构相似性。最后,用线性变换从归一化的多跳邻域Ne,n中提取出Ce,并输入卷积结构 -
上下文感知卷积模块
经由卷积架构从上下文特征Ce中提取的ce,ce与相应的实体嵌入e合并,合并后的结果ec被送入1-N评分层,以同时对候选实体的事实进行评分。
上下文信息收集
本节的目标是为每个实体e收集上下文信息Ce,具体流程如下图所示:

上图中,上下文窗口大小设置为8。我们首先收集给定根实体e的多跳周边实体(邻域), 然后我们根据实体的相对重要性,用同样的规则对多跳邻域中多余的实体进行修剪,最后从图结构中将其映射到线性空间。
多跳邻域集合
算法如下:从根实体e出发进行广度优先搜索,将该层邻居实体被添加到多跳邻域集合Ne中,然后继续往外扩展下一层的邻居,直至集合至少有k个实体
总而言之,与根实体一定距离的实体都被添加到Ne集合中,直到k个或更多的实体在集合中。如前面图中所示即将与根实体的距离为2或更小的实体组成子图。
图正则化
这里是指将多跳邻域集合Ne做规范化处理,对实体进行排序,并且删除相对不重要的实体(只保留到刚好k个),并且这个排序要优先考虑距离根实体的远近。如上图中排名较低的实体9和10倍剪枝掉了。
图线性变换
我们对于生成的子图,从根实体开始进行深度优先搜索,搜索顺序就是实体排序顺序,由此可以确定对应的实体、关系遍历书序,这条顺序链也就是最终图线性变换的结果。
上下文感知卷积架构
本模块的目的是对于一个给定的事实(h, r, t),对其进行评分,来确定其有效性。整体架构图如下图所示:

嵌入层
嵌入层获取由k个实体和x个关系组成的实体e的上下文信息Ce。
我们连接k + x实体和关系嵌入,并添加填充向量,直到固定大小s。
卷积层和最大池化层
该层使用并行CNN,结合了一个卷积层,该卷积层具有多个不同宽度的共享滤波器和Ce上的固定高度d。对于每个滤波器宽度的n(f)个滤波器,卷积运算通过n(f)个共享滤波器提取Ce的n(f)个特征映射。
为了捕获每个特征图中最重要的信息,我们在池化层应用了最大池化操作。
联合建模层
在该联合建模层中,通过联合建模将上下文特征向量ce、实体嵌入e和关系嵌入r对齐到相同的向量空间中。
1-N得分层

模型评估
数据集
我们使用了四个广泛使用的知识图谱数据集作为链接预测和三元组分类,包括FB15k-235、WN18RR、FB13、FB15k。
实体预测
结果如下图所示

我们观察到CACL在WN18RR上的MR最高,为H@10,在FB15k-237上的MR最好。特别的是,除了ConvKB外,CACL在所有三个评估指标上都表现出了最好的性能。
关系预测
结果如下图所示

三元组分类
结果如下图所示

总的来说,除了TransD之外,CACL在准确性上优于所有以前的模型。前两行的模型(例如,TransD)使用TransE来初始化实体和关系向量。有助于提高学习效果。CACL优于现有的其他型号,除了TransD。这表明,在某一事实周围有一个邻域的关系学习对三重分类有积极的影响。同时,我们采用了一个CNN,它可以有效地提取局部特征。它帮助我们的嵌入学习非常有信息。

浙公网安备 33010602011771号