完整教程:Conditional Random Field Enhanced Graph Convolutional Neural Networks (KDD‘19)

在这里插入图片描述
在这里插入图片描述
本文的核心:添加CRF在卷积之后,额外加一个“相似性约束”,强制让相似节点的表示靠近。

摘要
近年来,图卷积神经网络(GCN)受到了越来越多的关注。与标准卷积神经网络不同,图卷积神经网络在图数据上执行卷积操作。与一般的数据相比,图素材包含了不同节点之间的相似性信息一项具有挑战性的任务。就是,因此,在图卷积神经网络的隐含层中保留这种相似性信息尤为重要。然而,现有研究未能做到这一点。另一方面,要强制隐含层保留节点之间的相似关系也

为了解决这一问题,大家提出了一种新颖的CRF 层(条件随机场层)通过,用于图卷积神经网络,以鼓励相似节点具有相似的隐含特征。凭借这种方式,相似性信息能够被显式地保留下来。此外,所提出的 CRF 层在计算和优化上都十分简便,因此能够轻松插入现有的图卷积神经网络中,从而提升其性能。最后,大量实验结果验证了我们所提出的 CRF 层的有效性。

CCS 概念

  • 计算方法论 → 机器学习方法;神经网络。

1 引言

近年来,深度卷积神经网络(CNNs)在图像分类、图像生成和机器翻译等任务中取得了巨大成功[18, 25, 4, 13, 36]。卷积神经网络的基本思想是在局部邻域内进行卷积运算,以探索局部相关性。对于图像数据,由于其网格状结构,隐含的空间顺序使得在局部邻域上进行卷积变得容易。

在实际应用中,图(Graph)是许多现实世界数据的自然表示,如社交网络、知识图谱和引文网络。然而,图不像图像那样具有规则的网格结构,因此难以确定局部邻域来执行卷积操作。为了处理这一问题,研究者提出了图卷积神经网络(GCNs),其设计目的是在困难图数据上执行卷积。GCNs 在节点分类 [23]、推荐系统 [44] 等任务中表现出色,因此近年来引起了广泛关注。

一般来说,图卷积神经网络关键分为两类方法:空间方式与谱方法

  • 空间方法(Spatial approaches)[2, 11, 17, 34]:直接在图上进行卷积,通常为每个节点构造一个固定大小的邻域,然后在该邻域上执行常规卷积。例如,[34] 提出基于固定节点序列构造邻域,并在其上进行卷积操作。
  • 谱方法(Spectral approaches)[5, 10]:在谱域中执行卷积,无需显式构造邻域。例如,[5] 在图拉普拉斯的特征空间中定义卷积,[10] 提出了敏捷局部谱滤波以避免高昂的特征分解成本。[23] 进一步简化了谱方法,仅通过聚合1跳邻居搭建??

随着这些发展,GCNs 已被成功应用于多个任务 [21, 23, 27, 28, 33, 38, 41, 46],如节点分类[23, 41]、关系抽取[46] 等。

然而,现有GCNs未能充分利用图的属性

  • 在图数据中,边表示不同节点间的相似关系:若两节点相连,意味着它们相似;若不相连,则表明它们不相似。
  • 现有GCNs在卷积过程中确实利用了这种连通性信息,例如 [23] 中的GCN通过聚合1跳邻居将连通信息编码进表示。
  • 问题在于:卷积操作虽然能引入连通性,但并不能保证得到的隐藏特征显式地保留这种相似关系。若这种关系在隐藏特征中被破坏,下游任务的性能将受到严重影响。

因此,在GCN的隐藏层中显式保留相似性信息显得尤为重要和必要

为此,已有方法尝试利用Laplacian 正则化应该昂贵的特征分解,就是[1, 19, 37] 来保持相似性关系,该技巧已广泛应用于流形学习 [1, 19] 等任务。但其缺点不适用于大规模神经网络。另一方面,为了让GCN的隐藏层满足相似性约束,我们必须一种轻量、易优化、计算开销小的方式。

基于上述问题,本文提出了一种新颖的 CRF 层

  • 核心思想:利用条件随机场(CRF)对GCN卷积层的隐藏特征进行约束,使相似节点拥有相似的隐藏表示。
  • 形式化实现:CRF模型的解可以看作一个独立层,插入到标准GCN中以正则化卷积处理的输出。
  • 优点:所提出的CRF层计算简便、易于优化,可作为一种高效的正则化手段。

最后,本文的主要贡献总结如下:

  • 提出了一种新颖的CRF层,用于鼓励相似节点具有相似的隐藏特征。
  • 该CRF层易于计算与优化,可无缝插入现有的GCNs中。
  • 大量实验验证了该途径的有效性。

2 相关工作

在本节中,我们回顾现有图卷积神经网络(GCNs)相关的研究工作。近年来,图数据上的深度学习引起了越来越多的关注,已经有大量技巧 [2, 5, 10–12, 14, 15, 17, 23, 34] 被提出用于这一任务。其中,图卷积神经网络逐渐成为主流方法,其本质是在非欧式图数据上执行卷积操作。

与常规卷积神经网络不同,图卷积面临的挑战在于:不同节点的邻域大小不同,而常规卷积要求每个节点有固定大小的邻域。为了解决这一障碍,已有研究提出了不同的方法 [1, 2, 5, 8, 10, 11, 17, 20, 23, 24, 34, 48]。


2.1 空间方式(Spatial Approaches)

空间方法 [2, 11, 17, 34]直接在图上进行卷积。常规卷积需要邻域大小固定且有序,而在图中,节点的邻域往往大小不一且没有顺序信息。因此,空间技巧的目标是构造一个固定大小、有序的邻域,以便执行标准卷积操控。

  • [34] 提出先选取固定大小的节点序列,然后由此构造邻域,再执行卷积。
  • [2] 提出一种参数化构造方法来获得邻域。
  • [17] 提出一种归纳方法,随机选择固定大小的邻域,并以特定方式聚合这些节点的特征。

2.2 谱途径(Spectral Approaches)

谱方法 [5, 10, 23]在谱域而非空间域中执行卷积,从而避免显式构造固定大小的邻域。

  • [5] 在图拉普拉斯的傅里叶域中定义卷积,可在特征空间实现,但需要高昂的特征分解计算。
  • [10] 提出快速局部谱滤波,利用切比雪夫展开来避免特征分解,从而具有与标准CNN相同的线性计算复杂度。
  • [23] 进一步简化谱方法,限制滤波器仅作用于1跳邻居,从而只需聚合邻居节点的特征,效率更高。

随着这些发展,图卷积神经网络被广泛应用于多种任务[21, 23, 27, 28, 33, 38, 41, 46],如节点分类 [23, 41]、关系抽取 [46] 等。


2.3 注意力机制方法

近期,[41] 提出图注意力网络(GAT),将注意力机制引入GCN。与标准GCN对邻居节点特征均匀聚合不同,GAT根据邻居节点对目标节点的重要性分配不同权重


2.4 现有方法的不足

尽管上述方法能够在图数据上执行卷积,但它们有一个共同缺点:

  • 图数据中,连边蕴含节点间的相似关系。两节点相连意味着相似,不相连则表示不相似。
  • 现有GCNs在卷积时尽管利用了连通信息,但无法保证卷积后的新特征显式保留这种相似性约束
  • 如果这种隐含约束在特征中被破坏,下游任务性能会严重退化。

因此,重要且必要的就是在GCN学习的新特征中显式保留相似关系


2.5 处理相似关系的相关方法
  • 图正则化手段(Graph Regularization)[1, 19, 37]:广泛用于保持新特征的相似性约束,并在流形学习 [19] 等任务中成功应用。但该方法要求昂贵的图拉普拉斯特征分解,不适合大规模图。

  • 条件随机场(CRF)方法通过:CRF是一种概率图模型,能够建模成对关系。最早由 [26] 提出,用于序列数据的标签预测。之后被应用于多种任务:

    • 图像分割 [9]:通过像素与上下文的关系,细化粗粒度的预测结果。
    • 信息检索 [7]:建模查询点与库中数据点之间的相似性。

此外,当代工作 CGNF(Conditional Graph Neural Field)[30] 也将CRF应用于图卷积神经网络。但其方法不同:CGNF利用CRF建模节点标签之间的相关性,类似传统CRF模型 [9, 26];而本文提出的方法并未在CRF部分应用节点标签,因此与CGNF完全不同。

3 预备知识

在本节中,我们将介绍与本文方法相关的条件随机场(Conditional Random Field, CRF)一种概率图模型,最早由 [26] 提出,用于序列素材的标签预测。之后,CRF 被引入到不同的结构化预测任务中,如就是的基础知识。CRF 图像分割 [9]、信息检索 [7]。

从本质上看,CRF 能够建模参考素材点与其上下文之间的成对关系,从而细化最终预测结果

形式化地,给定输入数据xix_ixi,CRF 的目标是通过最大化条件概率来预测yiy_iyi

P(yi∣xi)=1Z(xi)exp⁡(−E(yi∣xi)),(1) P(y_i|x_i) = \frac{1}{Z(x_i)} \exp \big( -E(y_i|x_i) \big), \tag{1}P(yixi)=Z(xi)1exp(E(yixi)),(1)

其中:

  • Z(xi)Z(x_i)Z(xi)表示配分函数(partition function),起归一化因子的作用;
  • E(yi∣xi)E(y_i|x_i)E(yixi)表示能量函数。

这里,yiy_iyi的定义取决于具体任务:

  • 在图像分割任务中,yiy_iyi表示每个像素的标签;
  • 在本文的任务中,yiy_iyi表示新的表示(hidden representation)。

能量函数通常含有两个部分:

  1. 一元能量(Unary Energy):给出单个数据点的预测。
  2. 二元能量(Pairwise Energy):建模数据点与其上下文之间的相关性,用于正则化一元能量函数。

因此,单个数据点的预测结果既能从自身信息中获益,也能结合邻居数据点的信息。能量函数的定义如下:

E(yi∣xi)=ψu(yi,xi)+∑jψp(yi,yj,xi,xj),(2) E(y_i|x_i) = \psi_u(y_i, x_i) + \sum_j \psi_p(y_i, y_j, x_i, x_j), \tag{2}E(yixi)=ψu(yi,xi)+jψp(yi,yj,xi,xj),(2)

其中:

  • ψu(yi,xi)\psi_u(y_i, x_i)ψu(yi,xi)表示一元能量函数;
  • ψp(yi,yj,xi,xj)\psi_p(y_i, y_j, x_i, x_j)ψp(yi,yj,xi,xj)表示二元能量函数。

例如,在图像分割任务中:

  • 一元能量函数根据像素属性预测其标签;
  • 二元能量函数提供上下文信息,鼓励相似像素拥有相似的标签分配。

通常,CRF 模型的优化采用平均场近似(mean-field approximation) 方法。

受到 CRF 能够捕捉参考数据点与上下文之间成对关系的启发,本文将 CRF 应用于图卷积神经网络,以在隐藏层中保留节点间的相似性。


4 方法

假设输入图 G={ A,X}G = \{A, X\}G={ A,X}具备邻接矩阵A∈Rn×nA \in \mathbb{R}^{n \times n}ARn×n和节点特征矩阵X∈Rn×dX \in \mathbb{R}^{n \times d}XRn×d,其中 nnn表示节点数,ddd表示节点特征维度。具体来说,A=[aij]∈Rn×nA = [a_{ij}] \in \mathbb{R}^{n \times n}A=[aij]Rn×n表示不同节点之间的连通信息,若aij>0a_{ij} > 0aij>0,则说明节点iii 与节点 jjj之间存在边,否则aij=0a_{ij} = 0aij=0

基于这些定义,[23] 提出的标准图卷积神经网络(GCN)可能表示为:

H(l+1)=σ(A^H(l)W(l+1)),(3) H^{(l+1)} = \sigma(\hat{A} H^{(l)} W^{(l+1)}), \tag{3}H(l+1)=σ(A^H(l)W(l+1)),(3)

其中,H(l)H^{(l)}H(l) 表示第 lll层的节点表示,W(l)W^{(l)}W(l)表示该层的参数,σ(⋅)\sigma(\cdot)σ()表示非线性激活函数。这里,A^\hat{A}A^是归一化的图邻接矩阵:

A^=D~−12A~D~−12, \hat{A} = \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}},A^=D~21A~D~21,

其中,A~=A+I\tilde{A} = A + IA

posted @ 2025-09-06 20:52  yfceshi  阅读(16)  评论(0)    收藏  举报