MixupExplainer——MixupExplainer: Generalizing Explanations for Graph Neural Networks with Data Augmentation

论文信息

论文标题：MixupExplainer: Generalizing Explanations for Graph Neural Networks with Data Augmentation
论文作者：张家兴、罗东升、魏华
论文来源：KDD 2023
发布时间：2023-07-15
论文地址：link
论文代码：link

1 Introduction

1.1 GNN 的核心局限性：可解释性缺失

问题本质：与其他神经网络类似，GNN 的预测过程属于 “黑箱”，缺乏可解释性 —— 难以明确模型为何做出特定预测，限制其在高风险场景的应用。

可解释性的重要意义：

提升用户信任：在高风险应用（如医疗诊断、金融决策）中，可解释性能让用户更信任 GNN 的预测结果。

满足敏感领域需求：在医疗、药物研发等领域，公平性（fairness）、隐私性（privacy）、安全性（safety）是核心关切，可解释性是模型满足这些要求的关键前提，能提升模型透明度（transparency）。

1.2 现有解决方案：事后实例级解释方法

方法定位：事后（post-hoc）实例级（instance-level）解释方法是提升 GNN 透明度的主流方案，核心目标是从输入图中识别出 “关键子结构”，以此解释训练后 GNN 的预测行为，帮助人类理解模型内部工作机制。

典型方法示例：

GNNExplainer：通过扰动（perturbation）确定节点和边的重要性。

PGExplainer：训练一个图生成器（graph generator）以融入全局信息，实现解释。

其他相关研究：近年领域内已有多项工作（如文献 [11,30]）推动该类方法发展。

方法框架共性：大多基于 “标签保留框架”（label-preserving framework），即解释结果是原始图的子结构，且保留与预测标签相关的信息。

1.3 图信息瓶颈（GIB）的作用与局限

GIB 的核心逻辑：作为事后解释方法的理论基础之一，GIB 的目标是：

最大化解释子图 $G^*$ 与目标标签 $Y$ 的互信息 $I(G^*, Y)$ （确保解释子图包含足够的标签相关信息）；

约束解释子图 $G^*$ 与原始图 $G$ 的互信息 $I(G, G^*)$ （控制解释子图的规模，避免冗余）。

公式表达： $\underset{G^{*}}{arg min } I\left(G, G^{*}\right)-\alpha I\left(G^{*}, Y\right)$ （ $\alpha$ 为平衡两项目标的超参数）。

GIB 的关键局限：分布偏移问题：

问题根源：由于互信息 $I(G^*, Y)$ 难以直接计算，现有方法（如 GNNExplainer、PGExplainer）通常用 $I(f(G^*), Y)$ 近似（ $f$ 为 GNN 模型， $f(G^*)$ 是解释子图的预测结果），但该近似忽略了原始图 $G$ 与解释子图 $G^*$ 经模型 $f$ 处理后的分布偏移（distribution shifting）。

分布偏移的诱因：解释子图 $G^*$ 与原始图 $G$ 在节点数量、结构等属性上存在差异，导致二者分布不同。

问题影响：

可视化证据（Figure 1）：解释子图的嵌入（embeddings）与原始图的嵌入 “分布外（out of distribution）”，因模型 $f$ 的归纳偏置（inductive bias），上述近似的 “安全使用性” 受损；

严重场景：在决策边界紧密（tight decision boundaries）的复杂真实数据集上，分布偏移对解释质量的负面影响尤为显著。

1.4 分布偏移问题的研究现状

计算机视觉领域：该领域已关注事后解释中的分布偏移问题，如：

文献 [5]：优化图像分类器解释，突出与预测相关的上下文信息，确保与训练分布一致；

文献 [28]：通过量化扰动数据与原始数据集分布的关联性，解决图像解释的分布偏移。

图领域：相关研究较少，仅文献 [11] 尝试通过在解释过程初期 “退火规模约束系数” 缓解分布偏移，但该问题在整个解释过程中仍持续存在。

1.5 本文核心贡献预告

首次明确指出：在 GNN 主流的事后实例级解释框架中，分布偏移问题普遍存在。

提出一个具有坚实理论基础的广义框架，以缓解分布偏移问题；并基于该框架，设计了一种简单且有效的实例化方法 —— 通过对齐图和混合图掩码，将解释子图与随机采样的基础结构混合。
在合成数据集和真实数据集上的大量实验表明，该方法能显著且稳定地提升解释质量，AUC 分数最高提升 35.5%。

2 Method

2.1 Generalized GIB（广义图信息瓶颈）

2.1.1 Diverging Distributions in Eq. (3)（公式 3 中的分布差异问题）

核心问题：公式 3 中用 $Y^{*}=f(G^{*})$ （ $f$ 为待解释 GNN 模型， $G^{*}$ 为解释子图， $Y^{*}$ 为 $G^{*}$ 的预测标签）近似互信息时，忽略了原始图 $G$ 与解释子图 $G^{*}$ 经模型 $f$ 处理后的分布差异（distributional divergence）。

直观案例：以 MUTAG 数据集为例（Figure 1），模型 $f$ （用假设线表示）在正负样本分类上表现良好，但由于 $f(G)$ 与 $f(G^{*})$ 天然存在的分布偏移问题， $f$ 会将部分解释子图映射到决策边界另一侧的负样本区域。

实际影响：

公式 3 得到的解释子图可能是次优的，甚至与真实解释偏差较大（因 $f(G^{*})$ 与 $f(G)$ 差异显著）；

现有 GIB 框架仅在简单合成数据集上可能有效（依赖类别相关的隐含知识，且类别间决策边界较宽），但在 MUTAG 等实际场景中，分布偏移问题会严重影响近似效果（文献 [11,26] 支持该结论）。

2.1.2 Addressing with Label-independent Subgraph（用标签无关子图解决分布差异）

解决思路：在现有 GIB 框架中引入标签无关子图 $G^{\Delta}$ ，其核心直觉是：对于带标签 $Y_a$ 的原始图 $G_a$ ，标签无关子图 $G_a^{\Delta}$ 包含有用信息（如 $G_a^{\Delta}$ 与标签保留子图 $G_a^{*}$ 结合时，不会导致标签变化）。

广义 GIB 目标函数：

给定满足 $I(G^{\Delta}, Y | G^{*})=0$ （ $G^{\Delta}$ 与 $Y$ 在 $G^{*}$ 条件下互信息为 0，即标签无关）的图变量 $G^{\Delta}$ 。

广义 GIB 目标函数定义为：

$\underset{G^{*}}{arg min } I\left(G, G^{*}\right)+\alpha H\left(Y | G^{*}, G^{\Delta}\right), s.t. I\left(G^{\Delta}, Y | G^{*}\right)=0 \quad(4)$

核心优势：通过选择合适的 $G^{\Delta}$ （最小化分布距离 $D(G^{*}+G^{\Delta}, G)$ ），可在避免分布偏移问题的前提下近似 GIB（Figure 2 (b) 直观展示： $G^{*}+G^{\Delta}$ 与 $G$ 的重叠度更高，分布差异更小）。

目标函数近似：参考现有工作 [24,50]，将 $H(Y | G^{*}, G^{\Delta})$ 用交叉熵 $CE(Y, Y^{m})$ 近似（ $Y^{m}=f(G^{*}+G^{\Delta})$ 为 $G^{*}+G^{\Delta}$ 的预测标签）；当 $G^{\Delta}$ 为空图时，该近似退化为原始 GIB 的近似形式。最终推导的 GNN 解释新目标函数为：

$\begin{array}{ll} \underset{G^{\Delta}, G^{*}}{arg min } & I\left(G, G^{*}\right)+\alpha CE\left(Y, Y^{m}\right) \\ & s.t. D\left(G^{*}+G^{\Delta}, G\right)=0, I\left(G^{\Delta}, Y | G^{*}\right)=0 . \end{array} \quad(5)$

2.2 MixupExplainer（混合解释器）

2.2.1 方法核心思路

设计灵感：基于公式 5 的广义 GIB 目标函数，提出 MixupExplainer—— 一种简单且有理论保障的实例化方法，通过将解释子图与随机采样的标签无关结构混合，解决分布偏移问题。

标签无关子图采样：从数据集的标签无关子图分布 $\mathbb{P}_{G^{(i)}}$ 中采样 $G^{\Delta}$ ，与解释子图 $G^{*}$ 结合生成混合图 $G^{(mix)}$ ：

$G^{\Delta} \sim \mathbb{P}_{\mathcal{G}^{(i)}}, G^{(mix) }=G^{*}+G^{\Delta} \quad(6)$

约束条件：采样 $G^{\Delta}$ 时排除原始图本身，避免 $G=G^{(mix)}$ 的 trivial 情况；且因采样不考虑标签信息，可安全假设 $I(G^{\Delta}, Y | G^{*})=0$ 。

2.2.2 混合图掩码计算

基础假设：假设待解释图 $G_a=(A_a,X_a)$ 的解释模型 $g$ 学习到的解释子图 $G_a^{*}$ 用边掩码 $M_a=g(G_a)$ 表示；随机采样另一图 $G_b$ ，其边掩码为 $M_b=g(G_b)$ 。

掩码混合公式：混合 $G_a$ 的标签相关部分（ $M_a$ ）与 $G_b$ 的标签无关部分（ $A_b-M_b$ ），得混合图的边掩码 $M_a^{(mix)}$ ：

$M_a^{(mix)}=\lambda M_a+\left(A_b-\lambda M_b\right)$

与传统 Mixup 的差异：传统 Mixup（如文献 [15,49,54]）采用 $M^{(mix)}=\lambda M_a+(1-\lambda) M_b$ 形式，未区分标签相关与标签无关部分；而本文方法明确保留 $G_a$ 的标签相关部分，排除 $G_b$ 的标签相关部分，更贴合解释任务需求。

2.2.3 Implementation（实现细节）

核心挑战：真实数据集图的节点数可能不同（ $G_a$ 有 $n_a$ 个节点， $G_b$ 有 $n_b$ 个节点），导致 $M_a$ 与 $M_b$ 维度不匹配，无法直接混合。

节点集扩展：将 $G_a$ 和 $G_b$ 的节点集扩展为 $v_a \cup v_b$ ，对应的邻接矩阵扩展公式为：

$A_{a}^{ext}=\left[ \begin{array} {cc}{A_{a}}&{\mathbb {0}}\\ {\mathbb {0}}&{\mathbb {O}_{b}}\end{array} \right] ,A_{b}^{ext}=\left[ \begin{array} {cc}{\mathbb {O}_{a}}&{\mathbb {0}}\\ {\mathbb {0}}&{A_{b}}\end{array} \right]$

其中，

- - $\mathbb{O}_a$ 为 $n_a \times n_a$ 零矩阵
  - $\mathbb{O}_b$ 为 $n_b \times n_b$ 零矩阵
混合图构建：

邻接矩阵合并： $A^{(mix)}=\left[ \begin{array} {ll}{A_{a}}&{A_{c}}\\ {A_{c}^{T}}&{A_{b}}\end{array} \right]$ （ $A_c$ 为 $G_a$ 与 $G_b$ 间的跨图连接矩阵，每次混合随机采样 $\eta$ 条跨图边，确保混合图连通）；

边掩码合并： $M_a^{(mix)}=\left[ \begin{array} {cc}{{\lambda M_{a}}}&{{M_{c}}}\\ {{M_{c}^{T}}}&{{A_{b}-\lambda M_{b}}}\end{array} \right]$ （ $M_c$ 为 $A_c$ 对应的权重矩阵，随机采样生成，不参与解释模型 $g$ 的优化）；

节点特征合并： $X^{(mix)}=[X_a;X_b]$ （拼接 $G_a$ 与 $G_b$ 的节点特征）；

最终混合图： $G_a^{(mix)}=(X^{(mix)}, M_a^{(mix)} \odot A^{(mix)})$ （ $\odot$ 为元素级乘法）。

算法流程：详细步骤见 Algorithm 1（Graph Mixup Algorithm），输入为待解释图 $G_a$ 、图集合 $G$ 、跨图边数 $\eta$ 、解释模型 $g$ ，输出为混合图 $G^{(mix)}$ 。

2.2.4 Computational Complexity Analysis（计算复杂度分析）

各步骤复杂度：

图扩展（邻接矩阵与边掩码）： $O(|E_a|+|E_b|)$ （ $|E_a|$ 、 $|E_b|$ 分别为 $G_a$ 、 $G_b$ 的边数）；

跨图边生成（ $\eta$ 条）： $O(\eta)$ （ $\eta$ 为小常数）；

混合操作： $O(|E_a|+|E_b|)$ ；

总体复杂度： $O(|E_a|+|E_b|)$ ，与图的边数线性相关，计算效率高。

2.2.5 Theoretical Justification（理论证明）

核心定理（Theorem 1）：给定原始图 $G$ 、解释子图 $G^{*}$ 和公式 7 生成的混合图 $G^{(mix)}$ ，有 $KL(G, G^{*}) \geq KL(G, G^{(mix)})$ （ $KL$ 为 KL 散度，衡量分布差异）。

证明思路：

假设原始图 $G=G^{(e)}+G^{(i)}$ （ $G^{(e)}$ 为对 GNN 预测关键的 “解释子图”，服从 $\mathbb{P}_{G^{(e)}}$ 分布； $G^{(i)}$ 为标签无关的 “非解释子图”，服从 $\mathbb{P}_{G^{(i)}}$ 分布）；

随机采样图 $G_b=G_b^{(e)}+G_b^{(i)}$ （ $G_b$ 服从 $\mathbb{P}_G=\mathbb{P}_{G^{(e)},G^{(i)}}$ 分布）；

混合图 $G^{(mix)}=G^{(e)}+(G_b-G_b^{(e)})=G^{(e)}+G_b^{(i)}$ ，其分布 $\mathbb{P}_{G^{(mix)}}=\mathbb{P}_{G^{(e)}} * \mathbb{P}_{G^{(i)}}=\mathbb{P}_G$ ，故 $KL(G, G^{(mix)})=0$ ；

由此可推出 $KL(G, G^{*}) \geq KL(G, G^{(mix)})$ ，证明混合图与原始图的分布差异更小，能缓解分布偏移。

目标函数简化：结合 $I(G^{\Delta}, Y | G^{*})=0$ 的假设，MixupExplainer 的目标函数可简化为：

$\underset{G^{*}}{arg min } I\left(G, G^{*}\right)+\alpha CE\left(Y, Y^{(mix)}\right)$

仅需优化解释子图 $G^{*}$ ，无需额外优化 $G^{\Delta}$ ，降低计算成本

posted @ 2025-10-12 17:08 Blairs 阅读(8) 评论(0) 收藏举报

刷新页面返回顶部

xxai