ENGAGE: Explanation Guided Data Augmentation for Graph Representation Learning | ENGAGE：用于图表示学习的解释引导数据增强

论文信息

论文标题：Explanation-Preserving Augmentation for Semi-Supervised Graph Representation Learning
论文作者：史玉成，周凯雄，刘宁浩
论文来源：ECML-PKDD 2023
发布时间：2023-07-03
论文地址：link
论文代码：link

1 Introduction

1.1 研究背景：图表示学习的重要性与现状

图表示学习的价值：在众多图分析任务中（如节点分类、图分类等）展现出强大能力，可将图数据转化为低维、有意义的向量表示，为后续任务提供基础。其中，无监督图表示学习方法因在标签稀缺场景下的适应性，受到广泛关注。

对比学习的崛起：近年来，对比学习在无监督图表示学习中取得优异性能。其核心逻辑是通过从对比视图中学习表示，减少数据中的冗余信息，从而提升表示的有效性。

1.2 现有方法的核心问题

问题类别	具体表现	相关说明
随机扰动的局限性	多数现有工作（如 [2,3,57,52]）采用随机采样进行数据增强，可能意外破坏图结构，导致表示的有效性降低	图结构包含节点间的关联信息，是图数据的核心特征，结构破坏会丢失关键信息，影响下游任务性能
跨领域方法迁移困难	在计算机视觉、自然语言处理等领域，已有利用语义信息 [22,35] 或领域知识 [4] 设计的智能数据增强方法，但难以迁移到图领域	图数据具有抽象性，难以定义和提取有意义的元素；且图的非欧几里得特性进一步增加了数据增强的难度
现有解决方案的缺陷	1. 依赖外部信息：如 Fang 等人 [5] 利用知识图谱增强原始输入图，仅适用于计算化学等特定领域，缺乏通用性 2. 指标不普适：如 Zhu 等人 [58] 用节点中心性作为节点重要性指标，但中心性是静态度量，并非在所有场景下都与下游任务相关 3. 计算成本高或黑箱特性：部分工作 [11,51] 设计端到端框架自动制定数据增强策略，但计算成本高，且黑箱特性无法明确定位图数据中的任务相关信息	这些缺陷导致现有方法难以在通用性、有效性和可解释性之间取得平衡，无法满足广泛的图表示学习需求

1.3 本文核心贡献：ENGAGE 框架的提出

框架设计：提出 ENGAGE（Explanation Guided Data Augmentation）框架，利用解释引导对比视图的生成，实现无监督图表示学习，在保留图关键部分的同时去除冗余信息。

解释方法创新：设计高效的无监督解释方法 ——Smoothed Activation Map（SAM），基于 latent 空间中表示的分布来衡量节点重要性，无需依赖监督信号，适用于多种图神经网络模型。

数据增强策略：结合 SAM 计算的节点重要性得分，设计针对图结构（边）和节点特征的两种数据增强方案，用于构建对比学习所需的成对图视图，避免随机扰动对图关键结构的破坏。

效率与适用性：SAM 方法借助量化技术 [14] 实现高效计算，可融入训练过程；ENGAGE 框架适用于节点级和图级多种任务，且能与不同模型架构兼容，灵活性高。

2 Method

2.1 减少表示中的冗余信息（Mitigating Superfluous Information in Representations）

核心目标

明确学习有效且鲁棒表示的核心准则 —— 最小化冗余信息，同时保留任务相关信息，为后续 ENGAGE 框架的设计提供理论导向。

关键定义与公式

充分表示（Sufficiency）

定义：若表示 $z$ 满足 $I(X; y) = I(z; y)$ ，则称 $z$ 对于标签 $y$ 是充分的。其中 $X$ 为原始输入， $y$ 为下游任务标签， $I(\cdot;\cdot)$ 表示互信息。

含义：充分表示需完整保留原始输入中与任务标签相关的信息，无信息丢失，是保证下游任务性能的基础（如图 3 (a) 所示， $z$ 包含 $X$ 中所有与 $y$ 相关的信息）。

互信息分解公式

公式： $I(X; z) = \underbrace{I(X; z| y)}_{superfluous information} + \underbrace{I(z; y)}_{task-relevant information}$

解读：

第一项 $I(X; z| y)$ ：表示 $z$ 中包含的与预测 $y$ 无关的信息，即冗余信息，需最小化以提升表示的鲁棒性。

第二项 $I(z; y)$ ：表示 $z$ 中对预测 $y$ 有用的信息，即任务相关信息，只要 $z$ 是充分表示，该项不受表示过程影响，需完整保留。

对比学习与解释的结合逻辑

对比学习的局限性：现有对比学习虽能控制表示中保留的信息量，但在无标签场景下，难以明确应保留输入中的哪些信息，易保留冗余内容。

解决方案：引入解释机制，通过解释识别图中的关键结构信息，在对比学习的数据增强过程中，优先保留这些关键信息，同时更大概率丢弃冗余信息，弥补对比学习的不足。

2.2 无监督表示的高效解释方法（Efficient Explanations for Unsupervised Representations）

1. 现有解释方法的痛点：Class Activation Map（CAM）的局限性

适用范围窄：CAM 专为特定模型架构（含 GCN 和全连接输出层）设计，无法适配多种图神经网络模型。

依赖监督信号：CAM 用于有监督模型，需利用输出层对应类别 $c$ 的权重 $w_{k}^{c}$ 计算节点重要性，无法直接应用于无监督图表示学习场景。

2. 核心创新：Smoothed Activation Map（SAM）

1）设计理念

不依赖监督信号，利用图 / 节点在 latent 空间的表示分布，结合局部平滑策略（考虑邻近节点或图的信息），识别局部重要且可靠的图组件，计算节点重要性得分，同时保证计算效率。

2）GNN 前向传播过程基础

公式： $a_{i}^{l} = AGGREGATION^{l}\left(\left\{ F_{i^{\prime}}^{(l-1)}: n^{\prime} \in \mathcal{N}_{i}\right\}\right)$ ， $F_{i}^{l} = COMBINE^{l}\left(F_{i}^{(l-1)}, a_{i}^{l}\right)$

符号含义： $F_{i}^{l}$ 为节点 $v_{i}$ 在第 $l$ 层的嵌入， $\mathcal{N}_{i}$ 为节点 $v_{i}$ 的邻居集合， $AGGREGATION^{l}$ 为第 $l$ 层的聚合函数， $COMBINE^{l}$ 为第 $l$ 层的组合函数。

3）SAM 计算逻辑

节点重要性得分公式： $\psi_{i} = ReLU\left( \sum_{k} \overline{w}_{k}F_{k,i}^{L}\right)$

符号含义： $\psi_{i}$ 为节点 $v_{i}$ 的重要性得分， $\overline{w}_{k}$ 为第 $k$ 个通道的平滑重要性得分， $F_{k,i}^{L}$ 为节点 $v_{i}$ 在最后一层（ $L$ 层）第 $k$ 个 latent 维度的嵌入， $ReLU$ 函数用于过滤负重要性值。

通道平滑重要性得分 $\overline{w}_{k}$ 的计算

图级任务： $\overline{w}_{k}^{graph} = Norm\left( \sum_{n' \in \tilde{N}_{n}} Pool\left\{ F_{i'}^{L}: i' \in G_{n'}\right\}\right)[k]$

步骤：先对目标图 $G_{n}$ 在嵌入空间的邻居图集合 $\tilde{N}_{n}$ 中的每个图，通过 Pool（实验中用平均池化）操作从节点嵌入得到图级嵌入；再对这些图级嵌入求和，经 $L_2$ 归一化（Norm）后，取第 $k$ 个通道的值作为 $\overline{w}_{k}^{graph}$ 。

邻居图集合 $\tilde{N}_{n}$ ：通过量化技术 [14] 高效获取，降低计算成本。

节点级任务： $\overline{w}_{k}^{node (i)} = Norm\left( \sum_{i' \in \tilde{N}_{i}} F_{i'}^{L}\right)[k]$

步骤：对目标节点 $v_{i}$ 在嵌入空间的邻居节点集合 $\tilde{N}_{i}$ 的最后一层嵌入求和，经 $L_2$ 归一化后，取第 $k$ 个通道的值作为 $\overline{w}_{k}^{node (i)}$ 。

4）SAM 的优势

通用性：适用于多种 GNN 模型，无需监督信号，适配无监督学习场景。

可靠性：通过局部平滑（整合邻近图 / 节点信息），降低单一图 / 节点解释的噪声，提升解释结果的可靠性。

高效性：基于 GNN 前向传播过程直接计算，无需额外的扰动输入或训练全局解释器，计算成本低，可融入训练过程。

5）SAM 算法流程（图级任务）

Step1：
- 操作内容：输入编码器 $f(\cdot)$ 和目标图 $G_{n} = \{V, E, A, X\} \in G$ ，计算图的节点嵌入 $Z = f(X, A)$ ，再通过 Pool 操作得到图级嵌入 $z$
- 目的：获取图的基础嵌入表示
Step2：
- 操作内容：在 latent 空间中找到目标图 $G_{n}$ 的 $m$ 个近邻图 $\tilde{N}_{n}$
- 目的：为局部平滑提供邻近图信息
Step3：
- 操作内容：计算平滑通道重要性得分 $\tilde{w}_{k}^{graph} = Norm(z + \sum_{n' \in \tilde{N}_{n}} z_{n'})[k]$
- 目的：整合目标图与近邻图信息，得到可靠的通道权重
Step4：
- 操作内容：遍历目标图 $G_{n}$ 的每个节点 $v_{i}$ ，提取节点在最后一层的嵌入 $F_{k,i}^{L} = Z[i, k]$
- 目的：获取节点的高层特征嵌入
Step5：
- 操作内容：计算节点重要性得分 $\psi_{i} = ReLU\left( \sum_{k} \tilde{w}_{k} F_{k,i}\right)$
- 目的：得到每个节点的重要性，为数据增强提供依据
Step6：
- 操作内容：输出节点重要性得分集合 $\{\psi_{i}\}$
- 目的：完成 SAM 解释过程

2.3 解释引导的对比视图生成（Explanation-Guided Contrastive Views Generation）

1. 设计原则

基于 SAM 得到的节点重要性得分，对图的结构（边）和节点特征分别进行扰动，核心原则是保留重要信息，最大化扰动冗余信息，同时确保生成的两个对比视图含任务相关信息且互信息低，为对比学习提供高质量视图。

2. 边扰动（Edge Perturbation）

1）核心逻辑

通过节点重要性得分推导边重要性，基于边重要性设定阈值，对重要边和非重要边采取不同处理策略，生成两个差异化的边视图。

2）关键公式与操作

边重要性计算： $\phi_{i,j} = (\psi_{i} + \psi_{j}) / 2$ ，其中 $\psi_{i}$ 和 $\psi_{j}$ 分别为边 $e_{i,j}$ 两端节点 $v_{i}$ 和 $v_{j}$ 的重要性得分，取平均值作为边的重要性。

边掩码生成：

掩码 $M^{edge,1}$ ： $M_{i,j}^{edge,1} = \begin{cases} 1, & if \phi_{i,j} > \theta_{e} \\ Bernoulli(\phi_{i,j}), & if \phi_{i,j} \leq \theta_{e} \end{cases}$

掩码 $M^{edge,2}$ ： $M_{i,j}^{edge,2} = \begin{cases} 1, & if \phi_{i,j} > \theta_{e} \\ 1 - M_{i,j}^{edge,1}, & if \phi_{i,j} \leq \theta_{e} \end{cases}$

符号含义： $\theta_{e}$ 为边重要性阈值， $Bernoulli(\phi_{i,j})$ 表示以概率 $\phi_{i,j}$ 取 1、 $1 - \phi_{i,j}$ 取 0 的伯努利分布。

新视图邻接矩阵： $A_{1} = A \odot M^{edge,1}$ ， $A_{2} = A \odot M^{edge,2}$ ，其中 $\odot$ 为哈达玛积， $A$ 为原始邻接矩阵， $A_1$ 和 $A_2$ 为两个新视图的邻接矩阵。

3）阈值 $\theta_{e}$ 的设定

公式： $\theta_{e} = \mu_{\phi} + \lambda_{e} * \sigma_{\phi}$

符号含义： $\mu_{\phi}$ 为所有边重要性得分的均值， $\sigma_{\phi}$ 为标准差， $\lambda_{e}$ 为超参数，用于根据不同数据集调整重要边的比例（因不同数据集的重要性得分范围不同）。

3. 特征扰动（Feature Perturbation）

1）核心逻辑

基于节点重要性得分设定阈值，对重要节点和非重要节点的特征采取不同处理策略，生成两个差异化的特征视图。

2）关键公式与操作

特征掩码生成：

掩码 $M^{feat,1}$ ： $M_{i,d}^{feat,1} = \begin{cases} 1, & if \psi_{i} > \theta_{f} \\ Bernoulli(\psi_{i}), & if \psi_{i} \leq \theta_{f} \end{cases}$

掩码 $M^{feat,2}$ ： $M_{i,d}^{feat,2} = \begin{cases} 1, & if \psi_{i} > \theta_{f} \\ 1 - M_{i,d}^{feat,1}, & if \psi_{i} \leq \theta_{f} \end{cases}$

符号含义： $\theta_{f}$ 为节点特征重要性阈值， $M_{i,d}$ 表示节点 $v_{i}$ 第 $d$ 个特征维度的掩码值， $\psi_{i}$ 为节点 $v_{i}$ 的重要性得分。

新视图特征矩阵： $X_{1} = X \odot M^{feat,1}$ ， $X_{2} = X \odot M^{feat,2}$ ，其中 $X$ 为原始特征矩阵， $X_1$ 和 $X_2$ 为两个新视图的特征矩阵。

3）阈值 $\theta_{f}$ 的设定

公式： $\theta_{f} = \mu_{\psi} + \lambda_{f} * \sigma_{\psi}$

符号含义： $\mu_{\psi}$ 为所有节点重要性得分的均值， $\sigma_{\psi}$ 为标准差， $\lambda_{f}$ 为超参数，用于调整重要节点的比例。

4. 视图生成的核心优势

信息保留：确保两个视图均保留图中的关键任务相关信息，避免随机扰动导致的结构破坏。

互信息控制：通过非重要部分的差异化扰动（ $M^{edge,2}$ 与 $M^{edge,1}$ 、 $M^{feat,2}$ 与 $M^{feat,1}$ 在非重要区域互补），降低两个视图的互信息，满足对比学习对视图差异性的要求。

2.4 理论证明（Theoretical Justification）

1. 核心目标

从信息论角度证明解释引导的数据增强方法（4.3 节）能有效构建高质量对比视图，帮助对比学习学习到含更少冗余信息、更多任务相关信息的表示，为 ENGAGE 框架的有效性提供理论支撑。

2. 关键定义

定义名称	定义内容	含义与作用
冗余性（Redundancy）	视图 $U_1$ 相对于视图 $U_2$ 对 $y$ 是冗余的，当且仅当 $I(U_1; y \| U_2) = 0$	若 $U_1$ 与 $U_2$ 互冗余，则 $U_2$ 已包含 $U_1$ 中所有与 $y$ 相关的信息，保证两个视图均含任务相关信息
充分对比表示（Sufficient Contrastive Representation）	视图 $U_1$ 的表示 $z_1$ 对 $U_2$ 是充分的，当且仅当 $I(z_1; U_2) = I(U_1; U_2)$	表示 $z_1$ 完整保留了 $U_1$ 中与 $U_2$ 相关的信息，为后续保留跨视图共享的任务相关信息奠定基础
最小充分对比表示（Minimal Sufficient Contrastive Representation）	若 $z_1$ 是 $U_1$ 的充分对比表示，且不存在其他充分对比表示 $z_1'$ 满足 $I(z_1'; X) < I(z_1; X)$ ，则 $z_1$ 是最小充分对比表示	最小充分对比表示在保留跨视图共享信息的同时，最大化去除冗余信息，是对比学习追求的理想表示（如图 3 (c) 所示， $z_1^*$ 仅含 $U_1$ 与 $U_2$ 共享的信息）

3. 核心理论推导与结论

1）对比视图质量与表示任务相关性的关联

前提：若 $U_1$ 与 $U_2$ 互冗余（ $I(U_1; y | U_2) = 0$ ），且 $z_1$ 是 $U_1$ 的充分对比表示（ $I(z_1; U_2) = I(U_1; U_2)$ ），则 $I(z_1; y) = I(U_1; y)$ 。

结论：只要对比视图 $U_1$ 与 $U_2$ 互冗余，且表示 $z_1$ 是充分对比表示，就能保证 $z_1$ 完整保留 $U_1$ 中的任务相关信息，证明解释引导的视图生成（确保互冗余）能为表示提供任务相关性保障。

2）解释引导增强对冗余信息的去除作用

逻辑链：

对比学习训练目标是使表示 $z_1 \approx z_1^*$ （ $z_1^*$ 为 $U_1$ 的最小充分对比表示），此时 $I(z_1; z_2) \approx I(U_1; U_2)$ ，即表示仅保留跨视图共享信息。

ENGAGE 框架中，通过调整 $\theta_e$ 和 $\theta_f$ （如提高阈值），可进一步删除 $U_1$ 和 $U_2$ 中的冗余信息，使 $I(U_1; U_2)$ 降低，进而使训练后的 $I(z_1; z_2)$ 降低。

由于 $U_1$ 与 $U_2$ 仍互冗余， $I(z_1; y)$ 不受影响，因此 $I(z_1; X) = I(z_1; y) + I(z_1; X | y)$ 中， $I(z_1; X | y)$ （冗余信息）随 $I(z_1; z_2)$ 降低而减少（如图 3 (d) 所示， $z_1^*$ 的冗余信息进一步减少）。

结论：解释引导的数据增强可通过调整阈值，在保留任务相关信息（ $I(z_1; y)$ 不变）的同时，减少表示中的冗余信息（ $I(z_1; X | y)$ 降低），最终提升下游任务性能。

4. 理论与方法的衔接

SAM 的作用：通过局部平滑降低单一图 / 节点解释的噪声，确保识别的 “重要信息” 更接近真实任务相关信息，为 $U_1$ 与 $U_2$ 互冗余提供保障。
增强策略的作用：基于重要性得分的扰动策略，在生成视图时精准保留重要信息、扰动冗余信息，实现 $I(U_1; U_2)$ 的可控调整，为最小充分对比表示的学习提供高质量视图。

3 Experiments

3.1 实验核心目标与研究问题

通过设计多任务、多数据集、多模型的对比实验，回答以下 3 个核心研究问题（RQ），验证 ENGAGE 框架的有效性、解释机制的作用及超参数影响：

- RQ1：ENGAGE 在构建对比视图与学习图表示方面的有效性如何？

- RQ2：解释机制对表示学习的具体影响是什么？

- RQ3：超参数（如 $\lambda_e$ 、 $\lambda_f$ ）对 ENGAGE 性能的影响如何？

3.2 实验设置（Experimental Setup）

3.2.1 数据集选择

覆盖图级分类和节点级分类两大任务，确保实验的全面性与代表性，具体数据集如下：

任务类型	数据集	数据特点	数量规模	任务目标
图级分类	NCI1、PROTEINS、DD、PTC-MR、COLLAB、RDT-B、RDT-M5K、IMDB-B	均来自 TUDataset（图学习常用基准库），涵盖分子图（如 NCI1、PROTEINS）、生物图（如 DD）、社交 / 文档图（如 COLLAB、IMDB-B）等不同场景	单数据集图数量从数百到数千不等（如 PTC-MR 约 340 个图，COLLAB 约 5000 个图）	判断图所属类别（如分子是否具有抗癌活性、蛋白质结构类别）
节点级分类	Cora、CiteSeer、Wiki-CS、Amazon-Computers、Amazon-Photo	经典节点分类数据集，涵盖学术网络（Cora、CiteSeer）、维基百科分类网络（Wiki-CS）、电商商品网络（Amazon-Computers/Photo）	单数据集节点数量从数千到数万不等（如 Cora 约 2700 个节点，Amazon-Photo 约 7000 个节点）	判断节点所属类别（如论文主题、商品类别）

3.2.2 对比方法（Baselines）

分为 5 大类，全面覆盖不同时期、不同类型的图表示学习方法，确保对比的公平性与说服力：

类别	具体方法	方法特点	备注
图核方法	WL（Weisfeiler-Lehman）、DGK（Deep Graph Kernel）	传统图分类方法，基于图的拓扑结构或子结构计算相似度，无神经网络依赖	图级分类任务的基础对比基准
传统无监督图表示学习	node2vec、sub2vec、graph2vec	基于随机游走（node2vec）或子图嵌入（sub2vec/graph2vec），将图 / 节点转化为向量	验证 ENGAGE 相对传统无监督方法的优势
主流图对比学习	GraphCL、JOAO、JOAO(v2)、SimGRACE、MVGRL、InfoGraph、DGI（Deep Graph Infomax）	近年主流对比学习或互信息最大化方法，部分采用随机数据增强（如 GraphCL）、自动增强策略（如 JOAO）或无增强（如 SimGRACE）	验证 ENGAGE 相对现有对比学习方法的性能提升
基于随机扰动的对比学习	RD-SimCLR、RD-Simsiam	ENGAGE 的 “基准版本”：采用与 ENGAGE 相同的 SimCLR/Simsiam 框架，但数据增强为随机扰动（随机删边、随机掩码特征）	直接验证 “解释引导增强” 相对 “随机增强” 的核心优势
其他先进方法	GCA（Graph Contrastive Learning with Adaptive Augmentation）、GRACE（Deep Graph Contrastive Representation Learning）	自适应增强（GCA）或经典图对比学习（GRACE），部分方法针对节点级任务优化	节点级分类任务的关键对比基准

3.2.3 模型架构与训练配置

编码器（Encoder）：根据任务类型选择主流 GNN 架构，确保兼容性验证：

图级分类：GIN（Graph Isomorphism Network）—— 对图结构变化敏感，适合图级特征提取；

节点级分类：GCN（Graph Convolutional Network）、GAT（Graph Attention Network）—— 分别代表 “基于卷积” 和 “基于注意力” 的节点嵌入方法。

对比学习框架：基于 SimCLR 和 Simsiam 修改适配图数据：

SimCLR：需构建正负样本，采用 NTXent 损失（公式 1），含 1 个 MLP 投影头（ $p_o(\cdot)$ ）；

Simsiam：无需负样本，采用余弦相似度损失（公式 2），含 2 个 MLP 投影头（ $p_o(\cdot)$ 、 $q_o(\cdot)$ ）。

下游分类器：

图级分类：SVM（支持向量机），使用 5 折交叉验证评估；

节点级分类：逻辑回归，使用 5 折交叉验证评估。

评估指标：准确率（Accuracy），报告 5 次独立实验的 均值 ± 标准差（如 82.97 ± 0.20），“-” 表示该方法在对应数据集上无公开结果。

3.2.4 实验内容与结果分析

1. 核心实验 1：图级分类任务

1）实验内容

在 8 个 TUDataset 数据集上，对比 ENGAGE（EG-SimCLR、EG-Simsiam）与所有 Baselines 的分类准确率，计算各方法的平均排名（A.R.）（排名越低性能越好）。

2）实验结果

3）实验结论

性能优势：ENGAGE（EG-SimCLR/EG-Simsiam）在图级分类任务中表现最优，平均排名分别为 2.12 和 2.38，显著优于所有 Baselines；

增强有效性：相比 “随机增强” 的 RD 系列，ENGAGE 平均提升 2.90%，其中 NCI1 数据集提升最大（+3.95%），证明 “解释引导增强” 能有效避免随机扰动破坏图结构；

稳定性提升：ENGAGE 的标准差更小（如 EG-SimCLR 在 RDT-B 的标准差为 0.46，RD-SimCLR 为 5.40），说明解释引导降低了表示学习的随机性，提升模型稳定性。

2. 核心实验 2：节点级分类任务

1）实验内容

在 5 个节点分类数据集上，对比 ENGAGE（EG-SimCLR、EG-Simsiam，分别搭配 GCN/GAT 编码器）与 Baselines 的分类准确率，计算平均排名

2）实验结果（关键数据来自 Table 2）

3）实验结论

跨任务有效性：ENGAGE 在节点级分类任务中仍保持最优性能，平均排名 3.0~3.4，证明其适用于不同粒度的图学习任务；

编码器兼容性：ENGAGE 可与 GCN、GAT 等不同 GNN 编码器适配，其中在 GCN 上提升更显著（GAT 自带注意力选择，与 ENGAGE 的 “解释引导” 存在部分功能重叠）；

性能稳定性：ENGAGE 的标准差普遍小于 Baselines（如 EG-SimCLR 在 Cora 的标准差 0.18，GRACE 为 0.56），进一步验证其鲁棒性。

3. 消融实验：验证解释机制的作用

1）实验内容

设计 4 组对比模型，孤立 “局部平滑”（SAM 的核心创新）和 “解释引导” 两个关键因素，验证其必要性：

- RD 系列：随机增强（无解释）；

- HG 系列：“热图引导增强”（用节点重要性热图引导，但无局部平滑）；

- EG 系列：ENGAGE（热图引导 + 局部平滑，即 SAM）。

2）实验结果

方法	NCI1 准确率	PROTEINS 准确率	DD 准确率	核心差异
RD-SimCLR	79.02±0.52	74.61±0.56	77.40±0.81	无解释
HG-SimCLR	80.48±0.44（+1.46%）	74.93±0.62（+0.32%）	78.40±0.69（+1.00%）	有解释，无局部平滑
EG-SimCLR	82.97±0.20（+3.95%）	75.44±0.65（+0.83%）	78.86±0.51（+1.46%）	有解释 + 局部平滑

3）实验结论

解释引导的必要性：HG 系列（有解释）均优于 RD 系列（无解释），平均提升 0.93%，证明 “基于解释的增强” 比 “随机增强” 更有效；

局部平滑的价值：EG 系列（有解释 + 局部平滑）优于 HG 系列（有解释无平滑），平均提升 1.21%，证明 SAM 的 “局部平滑” 能降低单一节点 / 图的噪声，提升解释准确性，进而优化增强效果。

4. 消融实验：验证冗余信息去除能力

1）实验内容

定义 “解释稀疏性” 指标（ $S = \frac{1}{|V_n|}\sum_{i \in V_n} \mathbb{1}(\psi_i > \bar{\psi})$ ，其中 $\bar{\psi}$ 为节点重要性均值， $\mathbb{1}(\cdot)$ 为指示函数），观察训练过程中稀疏性的变化：

激进扰动： $\lambda_e=2, \lambda_f=2$ （高阈值，更多冗余信息被删除）；

温和扰动： $\lambda_e=-2, \lambda_f=-2$ （低阈值，保留更多信息）。

2）实验结果

数据集	激进扰动（ $\lambda=2$ ）稀疏性变化	温和扰动（ $\lambda=-2$ ）稀疏性变化
DD	训练过程中从 0.55 升至 0.70（上升 27%）	基本稳定在 0.55 左右（波动 < 2%）
PROTEINS	从 0.50 升至 0.65（上升 30%）	稳定在 0.50~0.52（波动 < 4%）
RDT-B	从 0.60 升至 0.75（上升 25%）	稳定在 0.60~0.62（波动 < 3%）

3）实验结论

冗余信息去除：激进扰动下，解释稀疏性显著上升（仅少数节点被判定为 “重要”），证明 ENGAGE 能逐步删除冗余信息，符合 “信息瓶颈原理”；

扰动强度控制：温和扰动下稀疏性稳定，说明阈值调整可控制信息保留程度，适配不同数据集的需求。

5. 超参数分析： $\lambda_e$ 与 $\lambda_f$ 的影响

1）实验内容

在 13 个数据集（8 个图级 + 5 个节点级）上，测试 $\lambda_e$ （边扰动阈值系数）和 $\lambda_f$ （特征扰动阈值系数）取不同值（-3~3）时的模型准确率，计算 “性能差距”（最优准确率 - 最差准确率）。

2）实验结果（关键数据来自 Figure 5）

数据集	最优 $\lambda$ 组合	性能差距	敏感性分析
DD（图级）	$\lambda_e=2, \lambda_f=2$ （激进扰动）	3.5%	对高 $\lambda$ 更敏感（性能提升明显）
PROTEINS（图级）	$\lambda_e=0, \lambda_f=0$ （中等扰动）	2.1%	对 $\lambda$ 变化不敏感（性能波动小）
RDT-B（图级）	$\lambda_e=-1, \lambda_f=-1$ （温和扰动）	1.8%	对低 $\lambda$ 更敏感（激进扰动性能下降）
COLLAB（图级）	$\lambda_e=1, \lambda_f=1$	9.55%（最大差距）	对 $\lambda$ 极敏感，需精细调参
Amazon-Photo（节点级）	$\lambda_e=0, \lambda_f=0$	0.23%（最小差距）	对 $\lambda$ 不敏感，鲁棒性强
模型框架对比	Simsiam-based 模型平均性能差距 3.39%（图级）、0.75%（节点级）	均小于 SimCLR-based 模型（3.96%、1.08%）	Simsiam 框架对超参数更鲁棒

3）实验结论

数据集依赖性：不同数据集的最优 $\lambda$ 组合不同（如 DD 适合激进扰动，RDT-B 适合温和扰动），因数据集本身的 “冗余信息含量” 不同；

敏感性差异：部分数据集（如 COLLAB）对超参数极敏感，需针对性调参；部分数据集（如 Amazon-Photo）鲁棒性强，调参成本低；

框架优势：Simsiam-based 模型的超参数敏感性低于 SimCLR-based，因 Simsiam 无需负样本，避免了负样本质量受扰动影响的问题。

3.2.5 实验总结论

有效性：ENGAGE 在图级和节点级分类任务中均取得最优性能，相比随机增强方法平均提升 2.90%（图级）和 1.00%（节点级），证明 “解释引导数据增强” 是解决图对比学习中 “随机扰动破坏结构” 问题的有效方案；

核心创新价值：SAM 的 “局部平滑” 机制能提升解释准确性，使增强策略更精准，消融实验显示该机制贡献 1.21% 的性能提升；

灵活性与鲁棒性：ENGAGE 可适配 GCN、GAT、GIN 等多种编码器，兼容 SimCLR/Simsiam 等对比框架，且在多数数据集上性能稳定（标准差小）；

超参指导：超参数 $\lambda_e/\lambda_f$ 需根据数据集调整，激进扰动适合冗余信息多的数据集（如 DD），温和扰动适合关键信息密集的数据集（如 RDT-B），Simsiam 框架是超参数敏感场景的优选。

posted @ 2025-10-11 16:50 Blairs 阅读(11) 评论(0) 收藏举报

刷新页面返回顶部

xxai

ENGAGE: Explanation Guided Data Augmentation for Graph Representation Learning | ENGAGE：用于图表示学习的解释引导数据增强

论文信息

1 Introduction

1.1 研究背景：图表示学习的重要性与现状

1.2 现有方法的核心问题

1.3 本文核心贡献：ENGAGE 框架的提出

2 Method

2.1 减少表示中的冗余信息（Mitigating Superfluous Information in Representations）

2.2 无监督表示的高效解释方法（Efficient Explanations for Unsupervised Representations）

2.3 解释引导的对比视图生成（Explanation-Guided Contrastive Views Generation）

2.4 理论证明（Theoretical Justification）

3 Experiments

3.1 实验核心目标与研究问题

3.2 实验设置（Experimental Setup）

3.2.1 数据集选择

3.2.2 对比方法（Baselines）

3.2.3 模型架构与训练配置

3.2.4 实验内容与结果分析

3.2.5 实验总结论

公告