How Powerful is Implicit Denoising in Graph Neural Networks
概
这篇文章理论分析了 GNN 去噪的内在机制.
符号说明
- \(\mathcal{G} = (\mathcal{V}, \mathcal{F})\), 无向图;
- \(|\mathcal{V}| = n\);
- \(A \in \{0, 1\}^{n \times n}\), 邻接矩阵;
- \(\mathcal{N}_i = \{v_i| A_{ij} = 1\}\), 结点 \(v_i\) 的一阶邻居;
- \(D, D_{ii} = \sum_j A_{ij}\);
- \(\tilde{A} = D^{-1/2} A D^{-1/2}\);
- \(\tilde{L} = I - \tilde{A}\);
- \(X \in \mathbb{R}^{n \times d}\), feature matrix;
- \(Y \in \{0, 1\}^{n \times c}\), label matrix, ont-hot;
GNN 的去噪能力
- 
现有的 GNN 可以近似等价于如下的一个优化问题: \[\tag{1} q(F) = \min_F \|F - X\|_F^2 + \lambda \text{ tr }(F^T \tilde{L}F); \]
- 
通过 \(\nabla q(F) = 0\), 可以得到如下的一个显式解: \[F = (I + \lambda \tilde{L})^{-1}X \approx \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1}\tilde{A})^l, \]这里我们用 Neumann series 近似. 相应地, 有 Neumann Graph Convolution, 定义为: \[H = \tilde{A}_L XW := \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1}\tilde{A})^l XW, \]这里 \(W\) 是可训练的矩阵. 
- 
假设特征 \(X\) 本身是带有噪声的, 且整体为如下形式: \[\tag{8} X = X^* + \eta, \]其中 \(X^*\) 是干净的特征, 而 \(\eta\) 为噪声. 
- 
现在我们要分析 GNN 能够通过 \(W\) 来去除该噪声的能力: \[\min_{W} f(W) = \|\tilde{A}_SXW - Y\|_F^2; \]
- 
假设理想的 \(W^*\) 为: \[\tag{12} W_g* = \arg\min_{W} g(W) = \|\tilde{A}_SX^*W - Y\|_F^2. \]
- 
则问题就是, (8) 经过 \(k\) 步梯度下降得到的解 \(W_f^{(k)}\) 和 \(W_g^*\) 的差距有多大: \[g(W_f^{(k)}) - g(W_g^*) \le ..., \]以及和什么有关. 
- 
为了回答这个问题, 我们首先需要知道几个概念: - 
High-order Graph Connectivity Factor: \[\tau = \max \: \tau_i \\ \tau_i = n\sum_{j=1}^n [\tilde{A}_L]_{ij}^2 / (1 - (\frac{\lambda}{\lambda + 1})^{L+1})^2. \]注意到 (需要假设 \(\tilde{A} = D^{-1}A\)), \[\sum_{j=1}^n [\tilde{A}_L]_{ij} = 1 - (\frac{\lambda}{\lambda + 1})^{L + 1}, \]此时容易得到: \[(1 - (\frac{\lambda}{\lambda + 1})^{L + 1})^2 / n \le \sum_{j=1}^n [\tilde{A}_L]_{ij}^2 \le (1 - (\frac{\lambda}{\lambda + 1})^{L + 1})^2, \]前者是 \(\tilde{A}_L\) 的每一行的值都一样, 此时分布最均匀, 也可以说此时图的连通性是最佳的, 而右边的上界则是每个结点孤立存在彼此均不联通. 所以 \(\tau \in [1, n]\) 反应了图的一个高阶连通性 (越小连通性越好). 
- 
一系列其它假设 (请回看原文); 
 
- 
- 
此时我们可以回答之前的问题, 它的结论是, 当以步长 \(\alpha = 1 / \kappa\) 迭代下降 \(k\) 次, 则有 \(1 - 1/d\) 的概率下式成立: \[g(W_f^{(k)}) - g(W_g^*) \le \mathcal{O}(\frac{1}{2ka}) + \mathcal{O}(\frac{\tau \log n}{n}). \]由此可以发现, 当 \(\tau\) 比较小, 梯度下降次数 \(k\) 比较多时候, GNN 就会具有一个较好的去噪效果. 
 注: 其中 \(\kappa\) 是 Lipschitz 常数是出现在假设中的量.
AGSD
- 
由此, 本文提出了一种对抗鲁棒的方法: \[\min_F \|F - X\|_F^2 + \lambda \max_{L'} \text{ tr }(F^T L' F), \|L' - \tilde{L}\|_F \le \epsilon. \]
- 
它等价于: \[\rho(F) = \min_F \|F - X\|_F^2 + \lambda \text{ tr }(F^T \tilde{L} F) + \lambda \epsilon \text{ tr }(\frac{F^TFF^TF}{\|FF^T\|_F}); \]
- 
由此可得公式: \[F = (I + \lambda \tilde{L} + \lambda \epsilon \frac{FF^T}{\|FF^T\|_F^2})^{-1} X; \]
- 
作者用下式近似 (因为我们实际上希望 \(F\) 接近 \(X\)): \[H \approx \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1} (\tilde{A}_L - \epsilon \frac{XX^T}{\|XX^T\|_F^2})^{l} XW. \]

 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号