MixupExplainer——MixupExplainer: Generalizing Explanations for Graph Neural Networks with Data Augmentation

论文信息

论文标题:MixupExplainer: Generalizing Explanations for Graph Neural Networks with Data Augmentation
论文作者:张家兴、罗东升、魏华
论文来源:KDD 2023
发布时间:2023-07-15
论文地址:link
论文代码:link

1 Introduction

1.1 GNN 的核心局限性:可解释性缺失

  • 问题本质:与其他神经网络类似,GNN 的预测过程属于 “黑箱”,缺乏可解释性 —— 难以明确模型为何做出特定预测,限制其在高风险场景的应用。
  • 可解释性的重要意义
    1. 提升用户信任:在高风险应用(如医疗诊断、金融决策)中,可解释性能让用户更信任 GNN 的预测结果。
    1. 满足敏感领域需求:在医疗、药物研发等领域,公平性(fairness)、隐私性(privacy)、安全性(safety)是核心关切,可解释性是模型满足这些要求的关键前提,能提升模型透明度(transparency)。

1.2 现有解决方案:事后实例级解释方法

  • 方法定位:事后(post-hoc)实例级(instance-level)解释方法是提升 GNN 透明度的主流方案,核心目标是从输入图中识别出 “关键子结构”,以此解释训练后 GNN 的预测行为,帮助人类理解模型内部工作机制。
  • 典型方法示例
    • GNNExplainer:通过扰动(perturbation)确定节点和边的重要性。
    • PGExplainer:训练一个图生成器(graph generator)以融入全局信息,实现解释。
    • 其他相关研究:近年领域内已有多项工作(如文献 [11,30])推动该类方法发展。
  • 方法框架共性:大多基于 “标签保留框架”(label-preserving framework),即解释结果是原始图的子结构,且保留与预测标签相关的信息。

1.3 图信息瓶颈(GIB)的作用与局限

  • GIB 的核心逻辑:作为事后解释方法的理论基础之一,GIB 的目标是:
    • 最大化解释子图 $G^*$ 与目标标签 $Y$ 的互信息 $I(G^*, Y)$ (确保解释子图包含足够的标签相关信息);
    • 约束解释子图 $G^*$ 与原始图 $G$ 的互信息 $I(G, G^*)$ (控制解释子图的规模,避免冗余)。
    • 公式表达: $\underset{G^{*}}{arg min } I\left(G, G^{*}\right)-\alpha I\left(G^{*}, Y\right)$ ( $\alpha$ 为平衡两项目标的超参数)。
  • GIB 的关键局限:分布偏移问题
    • 问题根源:由于互信息 $I(G^*, Y)$ 难以直接计算,现有方法(如 GNNExplainer、PGExplainer)通常用 $I(f(G^*), Y)$ 近似( $f$ 为 GNN 模型, $f(G^*)$ 是解释子图的预测结果),但该近似忽略了原始图 $G$ 与解释子图 $G^*$ 经模型 $f$ 处理后的分布偏移(distribution shifting)
    • 分布偏移的诱因:解释子图 $G^*$ 与原始图 $G$ 在节点数量、结构等属性上存在差异,导致二者分布不同。
    • 问题影响
      • 可视化证据(Figure 1):解释子图的嵌入(embeddings)与原始图的嵌入 “分布外(out of distribution)”,因模型 $f$ 的归纳偏置(inductive bias),上述近似的 “安全使用性” 受损;
      • 严重场景:在决策边界紧密(tight decision boundaries)的复杂真实数据集上,分布偏移对解释质量的负面影响尤为显著。

1.4 分布偏移问题的研究现状

  • 计算机视觉领域:该领域已关注事后解释中的分布偏移问题,如:
    • 文献 [5]:优化图像分类器解释,突出与预测相关的上下文信息,确保与训练分布一致;
    • 文献 [28]:通过量化扰动数据与原始数据集分布的关联性,解决图像解释的分布偏移。
  • 图领域:相关研究较少,仅文献 [11] 尝试通过在解释过程初期 “退火规模约束系数” 缓解分布偏移,但该问题在整个解释过程中仍持续存在。

1.5 本文核心贡献预告

  1. 首次明确指出:在 GNN 主流的事后实例级解释框架中,分布偏移问题普遍存在。
  1. 提出一个具有坚实理论基础的广义框架,以缓解分布偏移问题;并基于该框架,设计了一种简单且有效的实例化方法 —— 通过对齐图和混合图掩码,将解释子图与随机采样的基础结构混合。
  2. 在合成数据集和真实数据集上的大量实验表明,该方法能显著且稳定地提升解释质量,AUC 分数最高提升 35.5%。

2 Method

2.1 Generalized GIB(广义图信息瓶颈)

2.1.1 Diverging Distributions in Eq. (3)(公式 3 中的分布差异问题)

  • 核心问题:公式 3 中用 $Y^{*}=f(G^{*})$ ( $f$ 为待解释 GNN 模型, $G^{*}$ 为解释子图, $Y^{*}$ 为 $G^{*}$ 的预测标签)近似互信息时,忽略了原始图 $G$ 与解释子图 $G^{*}$ 经模型 $f$ 处理后的分布差异(distributional divergence)
  • 直观案例:以 MUTAG 数据集为例(Figure 1),模型 $f$ (用假设线表示)在正负样本分类上表现良好,但由于 $f(G)$ 与 $f(G^{*})$ 天然存在的分布偏移问题, $f$ 会将部分解释子图映射到决策边界另一侧的负样本区域。
  • 实际影响
    • 公式 3 得到的解释子图可能是次优的,甚至与真实解释偏差较大(因 $f(G^{*})$ 与 $f(G)$ 差异显著);
    • 现有 GIB 框架仅在简单合成数据集上可能有效(依赖类别相关的隐含知识,且类别间决策边界较宽),但在 MUTAG 等实际场景中,分布偏移问题会严重影响近似效果(文献 [11,26] 支持该结论)。

2.1.2 Addressing with Label-independent Subgraph(用标签无关子图解决分布差异)

  • 解决思路:在现有 GIB 框架中引入标签无关子图 $G^{\Delta}$ ,其核心直觉是:对于带标签 $Y_a$ 的原始图 $G_a$ ,标签无关子图 $G_a^{\Delta}$ 包含有用信息(如 $G_a^{\Delta}$ 与标签保留子图 $G_a^{*}$ 结合时,不会导致标签变化)。
  • 广义 GIB 目标函数

  给定满足 $I(G^{\Delta}, Y | G^{*})=0$ ( $G^{\Delta}$ 与 $Y$ 在 $G^{*}$ 条件下互信息为 0,即标签无关)的图变量 $G^{\Delta}$ 。

  广义 GIB 目标函数定义为:

     $\underset{G^{*}}{arg min } I\left(G, G^{*}\right)+\alpha H\left(Y | G^{*}, G^{\Delta}\right), s.t. I\left(G^{\Delta}, Y | G^{*}\right)=0  \quad(4)$
  • 核心优势:通过选择合适的 $G^{\Delta}$ (最小化分布距离 $D(G^{*}+G^{\Delta}, G)$ ),可在避免分布偏移问题的前提下近似 GIB(Figure 2 (b) 直观展示: $G^{*}+G^{\Delta}$ 与 $G$ 的重叠度更高,分布差异更小)。
  • 目标函数近似:参考现有工作 [24,50],将 $H(Y | G^{*}, G^{\Delta})$ 用交叉熵 $CE(Y, Y^{m})$ 近似( $Y^{m}=f(G^{*}+G^{\Delta})$ 为 $G^{*}+G^{\Delta}$ 的预测标签);当 $G^{\Delta}$ 为空图时,该近似退化为原始 GIB 的近似形式。最终推导的 GNN 解释新目标函数为:
     $\begin{array}{ll} \underset{G^{\Delta}, G^{*}}{arg min } & I\left(G, G^{*}\right)+\alpha CE\left(Y, Y^{m}\right) \\ & s.t. D\left(G^{*}+G^{\Delta}, G\right)=0, I\left(G^{\Delta}, Y | G^{*}\right)=0 . \end{array} \quad(5)$

2.2 MixupExplainer(混合解释器)

2.2.1 方法核心思路

  • 设计灵感:基于公式 5 的广义 GIB 目标函数,提出 MixupExplainer—— 一种简单且有理论保障的实例化方法,通过将解释子图与随机采样的标签无关结构混合,解决分布偏移问题。
  • 标签无关子图采样:从数据集的标签无关子图分布 $\mathbb{P}_{G^{(i)}}$ 中采样 $G^{\Delta}$ ,与解释子图 $G^{*}$ 结合生成混合图 $G^{(mix)}$ :

     $G^{\Delta} \sim \mathbb{P}_{\mathcal{G}^{(i)}}, G^{(mix) }=G^{*}+G^{\Delta} \quad(6)$

    • 约束条件:采样 $G^{\Delta}$ 时排除原始图本身,避免 $G=G^{(mix)}$ 的 trivial 情况;且因采样不考虑标签信息,可安全假设 $I(G^{\Delta}, Y | G^{*})=0$ 。

2.2.2 混合图掩码计算

  • 基础假设:假设待解释图 $G_a=(A_a,X_a)$ 的解释模型 $g$ 学习到的解释子图 $G_a^{*}$ 用边掩码 $M_a=g(G_a)$ 表示;随机采样另一图 $G_b$ ,其边掩码为 $M_b=g(G_b)$ 。
  • 掩码混合公式:混合 $G_a$ 的标签相关部分( $M_a$ )与 $G_b$ 的标签无关部分( $A_b-M_b$ ),得混合图的边掩码 $M_a^{(mix)}$ :
     $M_a^{(mix)}=\lambda M_a+\left(A_b-\lambda M_b\right)$
  • 与传统 Mixup 的差异:传统 Mixup(如文献 [15,49,54])采用 $M^{(mix)}=\lambda M_a+(1-\lambda) M_b$ 形式,未区分标签相关与标签无关部分;而本文方法明确保留 $G_a$ 的标签相关部分,排除 $G_b$ 的标签相关部分,更贴合解释任务需求。

2.2.3 Implementation(实现细节)

  • 核心挑战:真实数据集图的节点数可能不同( $G_a$ 有 $n_a$ 个节点, $G_b$ 有 $n_b$ 个节点),导致 $M_a$ 与 $M_b$ 维度不匹配,无法直接混合。
  • 节点集扩展:将 $G_a$ 和 $G_b$ 的节点集扩展为 $v_a \cup v_b$ ,对应的邻接矩阵扩展公式为:

     $A_{a}^{ext}=\left[ \begin{array} {cc}{A_{a}}&{\mathbb {0}}\\ {\mathbb {0}}&{\mathbb {O}_{b}}\end{array} \right] ,A_{b}^{ext}=\left[ \begin{array} {cc}{\mathbb {O}_{a}}&{\mathbb {0}}\\ {\mathbb {0}}&{A_{b}}\end{array} \right]$

    其中,

      • $\mathbb{O}_a$ 为 $n_a \times n_a$ 零矩阵  

      • $\mathbb{O}_b$ 为 $n_b \times n_b$ 零矩阵  

  • 混合图构建

    1. 邻接矩阵合并: $A^{(mix)}=\left[ \begin{array} {ll}{A_{a}}&{A_{c}}\\ {A_{c}^{T}}&{A_{b}}\end{array} \right]$ ( $A_c$ 为 $G_a$ 与 $G_b$ 间的跨图连接矩阵,每次混合随机采样 $\eta$ 条跨图边,确保混合图连通);
    1. 边掩码合并: $M_a^{(mix)}=\left[ \begin{array} {cc}{{\lambda M_{a}}}&{{M_{c}}}\\ {{M_{c}^{T}}}&{{A_{b}-\lambda M_{b}}}\end{array} \right]$ ( $M_c$ 为 $A_c$ 对应的权重矩阵,随机采样生成,不参与解释模型 $g$ 的优化);
    1. 节点特征合并: $X^{(mix)}=[X_a;X_b]$ (拼接 $G_a$ 与 $G_b$ 的节点特征);
    1. 最终混合图: $G_a^{(mix)}=(X^{(mix)}, M_a^{(mix)} \odot A^{(mix)})$ ( $\odot$ 为元素级乘法)。
  • 算法流程:详细步骤见 Algorithm 1(Graph Mixup Algorithm),输入为待解释图 $G_a$ 、图集合 $G$ 、跨图边数 $\eta$ 、解释模型 $g$ ,输出为混合图 $G^{(mix)}$ 。

2.2.4 Computational Complexity Analysis(计算复杂度分析)

  • 各步骤复杂度
    1. 图扩展(邻接矩阵与边掩码): $O(|E_a|+|E_b|)$ ( $|E_a|$ 、 $|E_b|$ 分别为 $G_a$ 、 $G_b$ 的边数);
    1. 跨图边生成( $\eta$ 条): $O(\eta)$ ( $\eta$ 为小常数);
    1. 混合操作: $O(|E_a|+|E_b|)$ ;
  • 总体复杂度: $O(|E_a|+|E_b|)$ ,与图的边数线性相关,计算效率高。

2.2.5 Theoretical Justification(理论证明)

  • 核心定理(Theorem 1):给定原始图 $G$ 、解释子图 $G^{*}$ 和公式 7 生成的混合图 $G^{(mix)}$ ,有 $KL(G, G^{*}) \geq KL(G, G^{(mix)})$ ( $KL$ 为 KL 散度,衡量分布差异)。
  • 证明思路
    1. 假设原始图 $G=G^{(e)}+G^{(i)}$ ( $G^{(e)}$ 为对 GNN 预测关键的 “解释子图”,服从 $\mathbb{P}_{G^{(e)}}$ 分布; $G^{(i)}$ 为标签无关的 “非解释子图”,服从 $\mathbb{P}_{G^{(i)}}$ 分布);
    1. 随机采样图 $G_b=G_b^{(e)}+G_b^{(i)}$ ( $G_b$ 服从 $\mathbb{P}_G=\mathbb{P}_{G^{(e)},G^{(i)}}$ 分布);
    1. 混合图 $G^{(mix)}=G^{(e)}+(G_b-G_b^{(e)})=G^{(e)}+G_b^{(i)}$ ,其分布 $\mathbb{P}_{G^{(mix)}}=\mathbb{P}_{G^{(e)}} * \mathbb{P}_{G^{(i)}}=\mathbb{P}_G$ ,故 $KL(G, G^{(mix)})=0$ ;
    1. 由此可推出 $KL(G, G^{*}) \geq KL(G, G^{(mix)})$ ,证明混合图与原始图的分布差异更小,能缓解分布偏移。
  • 目标函数简化:结合 $I(G^{\Delta}, Y | G^{*})=0$ 的假设,MixupExplainer 的目标函数可简化为:

     $\underset{G^{*}}{arg min } I\left(G, G^{*}\right)+\alpha CE\left(Y, Y^{(mix)}\right)$

    仅需优化解释子图 $G^{*}$ ,无需额外优化 $G^{\Delta}$ ,降低计算成本

 

posted @ 2025-10-12 17:08  Blairs  阅读(8)  评论(0)    收藏  举报
Live2D