ENGAGE: Explanation Guided Data Augmentation for Graph Representation Learning | ENGAGE:用于图表示学习的解释引导数据增强

论文信息

论文标题:Explanation-Preserving Augmentation for Semi-Supervised Graph Representation Learning
论文作者:史玉成, 周凯雄, 刘宁浩
论文来源:ECML-PKDD 2023
发布时间:2023-07-03
论文地址:link
论文代码:link

1 Introduction

1.1 研究背景:图表示学习的重要性与现状

  • 图表示学习的价值:在众多图分析任务中(如节点分类、图分类等)展现出强大能力,可将图数据转化为低维、有意义的向量表示,为后续任务提供基础。其中,无监督图表示学习方法因在标签稀缺场景下的适应性,受到广泛关注。
  • 对比学习的崛起:近年来,对比学习在无监督图表示学习中取得优异性能。其核心逻辑是通过从对比视图中学习表示,减少数据中的冗余信息,从而提升表示的有效性。

1.2 现有方法的核心问题

问题类别

具体表现

相关说明

随机扰动的局限性

多数现有工作(如 [2,3,57,52])采用随机采样进行数据增强,可能意外破坏图结构,导致表示的有效性降低

图结构包含节点间的关联信息,是图数据的核心特征,结构破坏会丢失关键信息,影响下游任务性能

跨领域方法迁移困难

在计算机视觉、自然语言处理等领域,已有利用语义信息 [22,35] 或领域知识 [4] 设计的智能数据增强方法,但难以迁移到图领域

图数据具有抽象性,难以定义和提取有意义的元素;且图的非欧几里得特性进一步增加了数据增强的难度

现有解决方案的缺陷

1. 依赖外部信息:如 Fang 等人 [5] 利用知识图谱增强原始输入图,仅适用于计算化学等特定领域,缺乏通用性

 

2. 指标不普适:如 Zhu 等人 [58] 用节点中心性作为节点重要性指标,但中心性是静态度量,并非在所有场景下都与下游任务相关

 

3. 计算成本高或黑箱特性:部分工作 [11,51] 设计端到端框架自动制定数据增强策略,但计算成本高,且黑箱特性无法明确定位图数据中的任务相关信息

这些缺陷导致现有方法难以在通用性、有效性和可解释性之间取得平衡,无法满足广泛的图表示学习需求

1.3 本文核心贡献:ENGAGE 框架的提出

  • 框架设计:提出 ENGAGE(Explanation Guided Data Augmentation)框架,利用解释引导对比视图的生成,实现无监督图表示学习,在保留图关键部分的同时去除冗余信息。
  • 解释方法创新:设计高效的无监督解释方法 ——Smoothed Activation Map(SAM),基于 latent 空间中表示的分布来衡量节点重要性,无需依赖监督信号,适用于多种图神经网络模型。
  • 数据增强策略:结合 SAM 计算的节点重要性得分,设计针对图结构(边)和节点特征的两种数据增强方案,用于构建对比学习所需的成对图视图,避免随机扰动对图关键结构的破坏。
  • 效率与适用性:SAM 方法借助量化技术 [14] 实现高效计算,可融入训练过程;ENGAGE 框架适用于节点级和图级多种任务,且能与不同模型架构兼容,灵活性高。
 

2 Method

2.1 减少表示中的冗余信息(Mitigating Superfluous Information in Representations)

核心目标

  明确学习有效且鲁棒表示的核心准则 —— 最小化冗余信息,同时保留任务相关信息,为后续 ENGAGE 框架的设计提供理论导向。

关键定义与公式

  • 充分表示(Sufficiency)
    • 定义:若表示 $z$ 满足 $I(X; y) = I(z; y)$ ,则称 $z$ 对于标签 $y$ 是充分的。其中 $X$ 为原始输入, $y$ 为下游任务标签, $I(\cdot;\cdot)$ 表示互信息。
    • 含义:充分表示需完整保留原始输入中与任务标签相关的信息,无信息丢失,是保证下游任务性能的基础(如图 3 (a) 所示, $z$ 包含 $X$ 中所有与 $y$ 相关的信息)。
  • 互信息分解公式
    • 公式: $I(X; z) = \underbrace{I(X; z| y)}_{superfluous information} + \underbrace{I(z; y)}_{task-relevant information}$
    • 解读:
      • 第一项 $I(X; z| y)$ :表示 $z$ 中包含的与预测 $y$ 无关的信息,即冗余信息,需最小化以提升表示的鲁棒性。
      • 第二项 $I(z; y)$ :表示 $z$ 中对预测 $y$ 有用的信息,即任务相关信息,只要 $z$ 是充分表示,该项不受表示过程影响,需完整保留。

对比学习与解释的结合逻辑

  • 对比学习的局限性:现有对比学习虽能控制表示中保留的信息量,但在无标签场景下,难以明确应保留输入中的哪些信息,易保留冗余内容。
  • 解决方案:引入解释机制,通过解释识别图中的关键结构信息,在对比学习的数据增强过程中,优先保留这些关键信息,同时更大概率丢弃冗余信息,弥补对比学习的不足。

2.2 无监督表示的高效解释方法(Efficient Explanations for Unsupervised Representations)

1. 现有解释方法的痛点:Class Activation Map(CAM)的局限性

  • 适用范围窄:CAM 专为特定模型架构(含 GCN 和全连接输出层)设计,无法适配多种图神经网络模型。
  • 依赖监督信号:CAM 用于有监督模型,需利用输出层对应类别 $c$ 的权重 $w_{k}^{c}$ 计算节点重要性,无法直接应用于无监督图表示学习场景。

2. 核心创新:Smoothed Activation Map(SAM)

1)设计理念

  不依赖监督信号,利用图 / 节点在 latent 空间的表示分布,结合局部平滑策略(考虑邻近节点或图的信息),识别局部重要且可靠的图组件,计算节点重要性得分,同时保证计算效率。

2)GNN 前向传播过程基础

  • 公式: $a_{i}^{l} = AGGREGATION^{l}\left(\left\{ F_{i^{\prime}}^{(l-1)}: n^{\prime} \in \mathcal{N}_{i}\right\}\right)$ , $F_{i}^{l} = COMBINE^{l}\left(F_{i}^{(l-1)}, a_{i}^{l}\right)$
  • 符号含义: $F_{i}^{l}$ 为节点 $v_{i}$ 在第 $l$ 层的嵌入, $\mathcal{N}_{i}$ 为节点 $v_{i}$ 的邻居集合, $AGGREGATION^{l}$ 为第 $l$ 层的聚合函数, $COMBINE^{l}$ 为第 $l$ 层的组合函数。

3)SAM 计算逻辑

  • 节点重要性得分公式: $\psi_{i} = ReLU\left( \sum_{k} \overline{w}_{k}F_{k,i}^{L}\right)$
    • 符号含义: $\psi_{i}$ 为节点 $v_{i}$ 的重要性得分, $\overline{w}_{k}$ 为第 $k$ 个通道的平滑重要性得分, $F_{k,i}^{L}$ 为节点 $v_{i}$ 在最后一层( $L$ 层)第 $k$ 个 latent 维度的嵌入, $ReLU$ 函数用于过滤负重要性值。
  • 通道平滑重要性得分 $\overline{w}_{k}$ 的计算
    • 图级任务: $\overline{w}_{k}^{graph} = Norm\left( \sum_{n' \in \tilde{N}_{n}} Pool\left\{ F_{i'}^{L}: i' \in G_{n'}\right\}\right)[k]$
      • 步骤:先对目标图 $G_{n}$ 在嵌入空间的邻居图集合 $\tilde{N}_{n}$ 中的每个图,通过 Pool(实验中用平均池化)操作从节点嵌入得到图级嵌入;再对这些图级嵌入求和,经 $L_2$ 归一化(Norm)后,取第 $k$ 个通道的值作为 $\overline{w}_{k}^{graph}$ 。
      • 邻居图集合 $\tilde{N}_{n}$ :通过量化技术 [14] 高效获取,降低计算成本。
    • 节点级任务: $\overline{w}_{k}^{node (i)} = Norm\left( \sum_{i' \in \tilde{N}_{i}} F_{i'}^{L}\right)[k]$
      • 步骤:对目标节点 $v_{i}$ 在嵌入空间的邻居节点集合 $\tilde{N}_{i}$ 的最后一层嵌入求和,经 $L_2$ 归一化后,取第 $k$ 个通道的值作为 $\overline{w}_{k}^{node (i)}$ 。

4)SAM 的优势

  • 通用性:适用于多种 GNN 模型,无需监督信号,适配无监督学习场景。
  • 可靠性:通过局部平滑(整合邻近图 / 节点信息),降低单一图 / 节点解释的噪声,提升解释结果的可靠性。
  • 高效性:基于 GNN 前向传播过程直接计算,无需额外的扰动输入或训练全局解释器,计算成本低,可融入训练过程。

5)SAM 算法流程(图级任务)

  • Step1:

    • 操作内容:输入编码器 $f(\cdot)$ 和目标图 $G_{n} = \{V, E, A, X\} \in G$ ,计算图的节点嵌入 $Z = f(X, A)$ ,再通过 Pool 操作得到图级嵌入 $z$
    • 目的:获取图的基础嵌入表示
  • Step2:

    • 操作内容:在 latent 空间中找到目标图 $G_{n}$ 的 $m$ 个近邻图 $\tilde{N}_{n}$

    • 目的:为局部平滑提供邻近图信息

  • Step3:

    • 操作内容:计算平滑通道重要性得分 $\tilde{w}_{k}^{graph} = Norm(z + \sum_{n' \in \tilde{N}_{n}} z_{n'})[k]$

    • 目的:整合目标图与近邻图信息,得到可靠的通道权重

  • Step4:

    • 操作内容:遍历目标图 $G_{n}$ 的每个节点 $v_{i}$ ,提取节点在最后一层的嵌入 $F_{k,i}^{L} = Z[i, k]$

    • 目的:获取节点的高层特征嵌入

  • Step5:

    • 操作内容:计算节点重要性得分 $\psi_{i} = ReLU\left( \sum_{k} \tilde{w}_{k} F_{k,i}\right)$

    • 目的:得到每个节点的重要性,为数据增强提供依据

  • Step6:

    • 操作内容:输出节点重要性得分集合 $\{\psi_{i}\}$

    • 目的:完成 SAM 解释过程

 

2.3 解释引导的对比视图生成(Explanation-Guided Contrastive Views Generation)

1. 设计原则

  基于 SAM 得到的节点重要性得分,对图的结构(边)和节点特征分别进行扰动,核心原则是保留重要信息,最大化扰动冗余信息,同时确保生成的两个对比视图含任务相关信息且互信息低,为对比学习提供高质量视图。

2. 边扰动(Edge Perturbation)

1)核心逻辑

  通过节点重要性得分推导边重要性,基于边重要性设定阈值,对重要边和非重要边采取不同处理策略,生成两个差异化的边视图。

2)关键公式与操作

  • 边重要性计算$\phi_{i,j} = (\psi_{i} + \psi_{j}) / 2$ ,其中 $\psi_{i}$ 和 $\psi_{j}$ 分别为边 $e_{i,j}$ 两端节点 $v_{i}$ 和 $v_{j}$ 的重要性得分,取平均值作为边的重要性。
  • 边掩码生成
    • 掩码 $M^{edge,1}$ : $M_{i,j}^{edge,1} = \begin{cases} 1, & if \phi_{i,j} > \theta_{e} \\ Bernoulli(\phi_{i,j}), & if \phi_{i,j} \leq \theta_{e} \end{cases}$
    • 掩码 $M^{edge,2}$ : $M_{i,j}^{edge,2} = \begin{cases} 1, & if \phi_{i,j} > \theta_{e} \\ 1 - M_{i,j}^{edge,1}, & if \phi_{i,j} \leq \theta_{e} \end{cases}$
    • 符号含义: $\theta_{e}$ 为边重要性阈值, $Bernoulli(\phi_{i,j})$ 表示以概率 $\phi_{i,j}$ 取 1、 $1 - \phi_{i,j}$ 取 0 的伯努利分布。
  • 新视图邻接矩阵: $A_{1} = A \odot M^{edge,1}$ , $A_{2} = A \odot M^{edge,2}$ ,其中 $\odot$ 为哈达玛积, $A$ 为原始邻接矩阵, $A_1$ 和 $A_2$ 为两个新视图的邻接矩阵。

3)阈值 $\theta_{e}$ 的设定

  • 公式: $\theta_{e} = \mu_{\phi} + \lambda_{e} * \sigma_{\phi}$
  • 符号含义: $\mu_{\phi}$ 为所有边重要性得分的均值, $\sigma_{\phi}$ 为标准差, $\lambda_{e}$ 为超参数,用于根据不同数据集调整重要边的比例(因不同数据集的重要性得分范围不同)。

3. 特征扰动(Feature Perturbation)

1)核心逻辑

  基于节点重要性得分设定阈值,对重要节点和非重要节点的特征采取不同处理策略,生成两个差异化的特征视图。

2)关键公式与操作

  • 特征掩码生成
    • 掩码 $M^{feat,1}$ : $M_{i,d}^{feat,1} = \begin{cases} 1, & if \psi_{i} > \theta_{f} \\ Bernoulli(\psi_{i}), & if \psi_{i} \leq \theta_{f} \end{cases}$
    • 掩码 $M^{feat,2}$ : $M_{i,d}^{feat,2} = \begin{cases} 1, & if \psi_{i} > \theta_{f} \\ 1 - M_{i,d}^{feat,1}, & if \psi_{i} \leq \theta_{f} \end{cases}$
    • 符号含义: $\theta_{f}$ 为节点特征重要性阈值, $M_{i,d}$ 表示节点 $v_{i}$ 第 $d$ 个特征维度的掩码值, $\psi_{i}$ 为节点 $v_{i}$ 的重要性得分。
  • 新视图特征矩阵: $X_{1} = X \odot M^{feat,1}$ , $X_{2} = X \odot M^{feat,2}$ ,其中 $X$ 为原始特征矩阵, $X_1$ 和 $X_2$ 为两个新视图的特征矩阵。

3)阈值 $\theta_{f}$ 的设定

  • 公式: $\theta_{f} = \mu_{\psi} + \lambda_{f} * \sigma_{\psi}$
  • 符号含义: $\mu_{\psi}$ 为所有节点重要性得分的均值, $\sigma_{\psi}$ 为标准差, $\lambda_{f}$ 为超参数,用于调整重要节点的比例。

4. 视图生成的核心优势

  • 信息保留:确保两个视图均保留图中的关键任务相关信息,避免随机扰动导致的结构破坏。
  • 互信息控制:通过非重要部分的差异化扰动( $M^{edge,2}$ 与 $M^{edge,1}$ 、 $M^{feat,2}$ 与 $M^{feat,1}$ 在非重要区域互补),降低两个视图的互信息,满足对比学习对视图差异性的要求。

2.4 理论证明(Theoretical Justification)

1. 核心目标

  从信息论角度证明解释引导的数据增强方法(4.3 节)能有效构建高质量对比视图,帮助对比学习学习到含更少冗余信息、更多任务相关信息的表示,为 ENGAGE 框架的有效性提供理论支撑。

2. 关键定义

定义名称
定义内容
含义与作用
冗余性(Redundancy)
视图 $U_1$ 相对于视图 $U_2$ 对 $y$ 是冗余的,当且仅当 $I(U_1; y | U_2) = 0$
若 $U_1$ 与 $U_2$ 互冗余,则 $U_2$ 已包含 $U_1$ 中所有与 $y$ 相关的信息,保证两个视图均含任务相关信息
充分对比表示(Sufficient Contrastive Representation)
视图 $U_1$ 的表示 $z_1$ 对 $U_2$ 是充分的,当且仅当 $I(z_1; U_2) = I(U_1; U_2)$
表示 $z_1$ 完整保留了 $U_1$ 中与 $U_2$ 相关的信息,为后续保留跨视图共享的任务相关信息奠定基础
最小充分对比表示(Minimal Sufficient Contrastive Representation)
若 $z_1$ 是 $U_1$ 的充分对比表示,且不存在其他充分对比表示 $z_1'$ 满足 $I(z_1'; X) < I(z_1; X)$ ,则 $z_1$ 是最小充分对比表示
最小充分对比表示在保留跨视图共享信息的同时,最大化去除冗余信息,是对比学习追求的理想表示(如图 3 (c) 所示, $z_1^*$ 仅含 $U_1$ 与 $U_2$ 共享的信息)

3. 核心理论推导与结论

1)对比视图质量与表示任务相关性的关联

  • 前提:若 $U_1$ 与 $U_2$ 互冗余( $I(U_1; y | U_2) = 0$ ),且 $z_1$ 是 $U_1$ 的充分对比表示( $I(z_1; U_2) = I(U_1; U_2)$ ),则 $I(z_1; y) = I(U_1; y)$ 。

  • 结论:只要对比视图 $U_1$ 与 $U_2$ 互冗余,且表示 $z_1$ 是充分对比表示,就能保证 $z_1$ 完整保留 $U_1$ 中的任务相关信息,证明解释引导的视图生成(确保互冗余)能为表示提供任务相关性保障。

2)解释引导增强对冗余信息的去除作用

  • 逻辑链:
    1. 对比学习训练目标是使表示 $z_1 \approx z_1^*$ ( $z_1^*$ 为 $U_1$ 的最小充分对比表示),此时 $I(z_1; z_2) \approx I(U_1; U_2)$ ,即表示仅保留跨视图共享信息。
    1. ENGAGE 框架中,通过调整 $\theta_e$ 和 $\theta_f$ (如提高阈值),可进一步删除 $U_1$ 和 $U_2$ 中的冗余信息,使 $I(U_1; U_2)$ 降低,进而使训练后的 $I(z_1; z_2)$ 降低。
    1. 由于 $U_1$ 与 $U_2$ 仍互冗余, $I(z_1; y)$ 不受影响,因此 $I(z_1; X) = I(z_1; y) + I(z_1; X | y)$ 中, $I(z_1; X | y)$ (冗余信息)随 $I(z_1; z_2)$ 降低而减少(如图 3 (d) 所示, $z_1^*$ 的冗余信息进一步减少)。
  • 结论:解释引导的数据增强可通过调整阈值,在保留任务相关信息( $I(z_1; y)$ 不变)的同时,减少表示中的冗余信息( $I(z_1; X | y)$ 降低),最终提升下游任务性能。

4. 理论与方法的衔接

  • SAM 的作用:通过局部平滑降低单一图 / 节点解释的噪声,确保识别的 “重要信息” 更接近真实任务相关信息,为 $U_1$ 与 $U_2$ 互冗余提供保障。

  • 增强策略的作用:基于重要性得分的扰动策略,在生成视图时精准保留重要信息、扰动冗余信息,实现 $I(U_1; U_2)$ 的可控调整,为最小充分对比表示的学习提供高质量视图。

3 Experiments

3.1 实验核心目标与研究问题

  通过设计多任务、多数据集、多模型的对比实验,回答以下 3 个核心研究问题(RQ),验证 ENGAGE 框架的有效性、解释机制的作用及超参数影响:
    • RQ1:ENGAGE 在构建对比视图与学习图表示方面的有效性如何?
    • RQ2:解释机制对表示学习的具体影响是什么?
    • RQ3:超参数(如 $\lambda_e$ 、 $\lambda_f$ )对 ENGAGE 性能的影响如何?

3.2 实验设置(Experimental Setup)

3.2.1 数据集选择

  覆盖图级分类节点级分类两大任务,确保实验的全面性与代表性,具体数据集如下:

任务类型
数据集
数据特点
数量规模
任务目标
图级分类
NCI1、PROTEINS、DD、PTC-MR、COLLAB、RDT-B、RDT-M5K、IMDB-B
均来自 TUDataset(图学习常用基准库),涵盖分子图(如 NCI1、PROTEINS)、生物图(如 DD)、社交 / 文档图(如 COLLAB、IMDB-B)等不同场景
单数据集图数量从数百到数千不等(如 PTC-MR 约 340 个图,COLLAB 约 5000 个图)
判断图所属类别(如分子是否具有抗癌活性、蛋白质结构类别)
节点级分类
Cora、CiteSeer、Wiki-CS、Amazon-Computers、Amazon-Photo
经典节点分类数据集,涵盖学术网络(Cora、CiteSeer)、维基百科分类网络(Wiki-CS)、电商商品网络(Amazon-Computers/Photo)
单数据集节点数量从数千到数万不等(如 Cora 约 2700 个节点,Amazon-Photo 约 7000 个节点)
判断节点所属类别(如论文主题、商品类别)

3.2.2 对比方法(Baselines)

  分为 5 大类,全面覆盖不同时期、不同类型的图表示学习方法,确保对比的公平性与说服力:

类别
具体方法
方法特点
备注
图核方法
WL(Weisfeiler-Lehman)、DGK(Deep Graph Kernel)
传统图分类方法,基于图的拓扑结构或子结构计算相似度,无神经网络依赖
图级分类任务的基础对比基准
传统无监督图表示学习
node2vec、sub2vec、graph2vec
基于随机游走(node2vec)或子图嵌入(sub2vec/graph2vec),将图 / 节点转化为向量
验证 ENGAGE 相对传统无监督方法的优势
主流图对比学习
GraphCL、JOAO、JOAO(v2)、SimGRACE、MVGRL、InfoGraph、DGI(Deep Graph Infomax)
近年主流对比学习或互信息最大化方法,部分采用随机数据增强(如 GraphCL)、自动增强策略(如 JOAO)或无增强(如 SimGRACE)
验证 ENGAGE 相对现有对比学习方法的性能提升
基于随机扰动的对比学习
RD-SimCLR、RD-Simsiam
ENGAGE 的 “基准版本”:采用与 ENGAGE 相同的 SimCLR/Simsiam 框架,但数据增强为随机扰动(随机删边、随机掩码特征)
直接验证 “解释引导增强” 相对 “随机增强” 的核心优势
其他先进方法
GCA(Graph Contrastive Learning with Adaptive Augmentation)、GRACE(Deep Graph Contrastive Representation Learning)
自适应增强(GCA)或经典图对比学习(GRACE),部分方法针对节点级任务优化
节点级分类任务的关键对比基准

3.2.3 模型架构与训练配置

  • 编码器(Encoder):根据任务类型选择主流 GNN 架构,确保兼容性验证:
    • 图级分类:GIN(Graph Isomorphism Network)—— 对图结构变化敏感,适合图级特征提取;
    • 节点级分类:GCN(Graph Convolutional Network)、GAT(Graph Attention Network)—— 分别代表 “基于卷积” 和 “基于注意力” 的节点嵌入方法。
  • 对比学习框架:基于 SimCLR 和 Simsiam 修改适配图数据:
    • SimCLR:需构建正负样本,采用 NTXent 损失(公式 1),含 1 个 MLP 投影头( $p_o(\cdot)$ );
    • Simsiam:无需负样本,采用余弦相似度损失(公式 2),含 2 个 MLP 投影头( $p_o(\cdot)$ 、 $q_o(\cdot)$ )。
  • 下游分类器
    • 图级分类:SVM(支持向量机),使用 5 折交叉验证评估;
    • 节点级分类:逻辑回归,使用 5 折交叉验证评估。
  • 评估指标:准确率(Accuracy),报告 5 次独立实验的 均值 ± 标准差(如 82.97 ± 0.20),“-” 表示该方法在对应数据集上无公开结果。

3.2.4 实验内容与结果分析

1. 核心实验 1:图级分类任务

1)实验内容

  在 8 个 TUDataset 数据集上,对比 ENGAGE(EG-SimCLR、EG-Simsiam)与所有 Baselines 的分类准确率,计算各方法的平均排名(A.R.)(排名越低性能越好)。

2)实验结果

  image  

3)实验结论

  • 性能优势:ENGAGE(EG-SimCLR/EG-Simsiam)在图级分类任务中表现最优,平均排名分别为 2.12 和 2.38,显著优于所有 Baselines;
  • 增强有效性:相比 “随机增强” 的 RD 系列,ENGAGE 平均提升 2.90%,其中 NCI1 数据集提升最大(+3.95%),证明 “解释引导增强” 能有效避免随机扰动破坏图结构;
  • 稳定性提升:ENGAGE 的标准差更小(如 EG-SimCLR 在 RDT-B 的标准差为 0.46,RD-SimCLR 为 5.40),说明解释引导降低了表示学习的随机性,提升模型稳定性。

2. 核心实验 2:节点级分类任务

1)实验内容

  在 5 个节点分类数据集上,对比 ENGAGE(EG-SimCLR、EG-Simsiam,分别搭配 GCN/GAT 编码器)与 Baselines 的分类准确率,计算平均排名

2)实验结果(关键数据来自 Table 2)

  image

3)实验结论

  • 跨任务有效性:ENGAGE 在节点级分类任务中仍保持最优性能,平均排名 3.0~3.4,证明其适用于不同粒度的图学习任务;
  • 编码器兼容性:ENGAGE 可与 GCN、GAT 等不同 GNN 编码器适配,其中在 GCN 上提升更显著(GAT 自带注意力选择,与 ENGAGE 的 “解释引导” 存在部分功能重叠);
  • 性能稳定性:ENGAGE 的标准差普遍小于 Baselines(如 EG-SimCLR 在 Cora 的标准差 0.18,GRACE 为 0.56),进一步验证其鲁棒性。

3. 消融实验:验证解释机制的作用

1)实验内容

  设计 4 组对比模型,孤立 “局部平滑”(SAM 的核心创新)和 “解释引导” 两个关键因素,验证其必要性:

    • RD 系列:随机增强(无解释);
    • HG 系列:“热图引导增强”(用节点重要性热图引导,但无局部平滑);
    • EG 系列:ENGAGE(热图引导 + 局部平滑,即 SAM)。

2)实验结果

  image

方法 NCI1 准确率 PROTEINS 准确率 DD 准确率 核心差异
RD-SimCLR 79.02±0.52 74.61±0.56 77.40±0.81 无解释
HG-SimCLR 80.48±0.44(+1.46%) 74.93±0.62(+0.32%) 78.40±0.69(+1.00%) 有解释,无局部平滑
EG-SimCLR 82.97±0.20(+3.95%) 75.44±0.65(+0.83%) 78.86±0.51(+1.46%) 有解释 + 局部平滑

3)实验结论

  • 解释引导的必要性:HG 系列(有解释)均优于 RD 系列(无解释),平均提升 0.93%,证明 “基于解释的增强” 比 “随机增强” 更有效;
  • 局部平滑的价值:EG 系列(有解释 + 局部平滑)优于 HG 系列(有解释无平滑),平均提升 1.21%,证明 SAM 的 “局部平滑” 能降低单一节点 / 图的噪声,提升解释准确性,进而优化增强效果。

4. 消融实验:验证冗余信息去除能力

1)实验内容

  定义 “解释稀疏性” 指标( $S = \frac{1}{|V_n|}\sum_{i \in V_n} \mathbb{1}(\psi_i > \bar{\psi})$ ,其中 $\bar{\psi}$ 为节点重要性均值, $\mathbb{1}(\cdot)$ 为指示函数),观察训练过程中稀疏性的变化:

  • 激进扰动: $\lambda_e=2, \lambda_f=2$ (高阈值,更多冗余信息被删除);
  • 温和扰动: $\lambda_e=-2, \lambda_f=-2$ (低阈值,保留更多信息)。

2)实验结果

  image

数据集 激进扰动( $\lambda=2$ )稀疏性变化 温和扰动( $\lambda=-2$ )稀疏性变化
DD 训练过程中从 0.55 升至 0.70(上升 27%) 基本稳定在 0.55 左右(波动 < 2%)
PROTEINS 从 0.50 升至 0.65(上升 30%) 稳定在 0.50~0.52(波动 < 4%)
RDT-B 从 0.60 升至 0.75(上升 25%) 稳定在 0.60~0.62(波动 < 3%)

3)实验结论

  • 冗余信息去除:激进扰动下,解释稀疏性显著上升(仅少数节点被判定为 “重要”),证明 ENGAGE 能逐步删除冗余信息,符合 “信息瓶颈原理”;
  • 扰动强度控制:温和扰动下稀疏性稳定,说明阈值调整可控制信息保留程度,适配不同数据集的需求。

5. 超参数分析: $\lambda_e$ 与 $\lambda_f$ 的影响

1)实验内容

  在 13 个数据集(8 个图级 + 5 个节点级)上,测试 $\lambda_e$ (边扰动阈值系数)和 $\lambda_f$ (特征扰动阈值系数)取不同值(-3~3)时的模型准确率,计算 “性能差距”(最优准确率 - 最差准确率)。

2)实验结果(关键数据来自 Figure 5)

  image

数据集 最优 $\lambda$ 组合 性能差距 敏感性分析
DD(图级) $\lambda_e=2, \lambda_f=2$ (激进扰动) 3.5% 对高 $\lambda$ 更敏感(性能提升明显)
PROTEINS(图级) $\lambda_e=0, \lambda_f=0$ (中等扰动) 2.1% 对 $\lambda$ 变化不敏感(性能波动小)
RDT-B(图级) $\lambda_e=-1, \lambda_f=-1$ (温和扰动) 1.8% 对低 $\lambda$ 更敏感(激进扰动性能下降)
COLLAB(图级) $\lambda_e=1, \lambda_f=1$ 9.55%(最大差距) 对 $\lambda$ 极敏感,需精细调参
Amazon-Photo(节点级) $\lambda_e=0, \lambda_f=0$ 0.23%(最小差距) 对 $\lambda$ 不敏感,鲁棒性强
模型框架对比 Simsiam-based 模型平均性能差距 3.39%(图级)、0.75%(节点级) 均小于 SimCLR-based 模型(3.96%、1.08%) Simsiam 框架对超参数更鲁棒

3)实验结论

  • 数据集依赖性:不同数据集的最优 $\lambda$ 组合不同(如 DD 适合激进扰动,RDT-B 适合温和扰动),因数据集本身的 “冗余信息含量” 不同;
  • 敏感性差异:部分数据集(如 COLLAB)对超参数极敏感,需针对性调参;部分数据集(如 Amazon-Photo)鲁棒性强,调参成本低;
  • 框架优势:Simsiam-based 模型的超参数敏感性低于 SimCLR-based,因 Simsiam 无需负样本,避免了负样本质量受扰动影响的问题。

3.2.5 实验总结论

  1. 有效性:ENGAGE 在图级和节点级分类任务中均取得最优性能,相比随机增强方法平均提升 2.90%(图级)和 1.00%(节点级),证明 “解释引导数据增强” 是解决图对比学习中 “随机扰动破坏结构” 问题的有效方案;
  1. 核心创新价值:SAM 的 “局部平滑” 机制能提升解释准确性,使增强策略更精准,消融实验显示该机制贡献 1.21% 的性能提升;
  1. 灵活性与鲁棒性:ENGAGE 可适配 GCN、GAT、GIN 等多种编码器,兼容 SimCLR/Simsiam 等对比框架,且在多数数据集上性能稳定(标准差小);
  1. 超参指导:超参数 $\lambda_e/\lambda_f$ 需根据数据集调整,激进扰动适合冗余信息多的数据集(如 DD),温和扰动适合关键信息密集的数据集(如 RDT-B),Simsiam 框架是超参数敏感场景的优选。

 

posted @ 2025-10-11 16:50  Blairs  阅读(11)  评论(0)    收藏  举报
Live2D