论文解读（GALA）《Symmetric Graph Convolutional Autoencoder for Unsupervised Graph Representation Learning》

论文信息

论文标题：Symmetric Graph Convolutional Autoencoder for Unsupervised Graph Representation Learning
论文作者：Jiwoong Park、Minsik Lee、H. Chang、Kyuewang Lee、J. Choi
论文来源：2019, ICCV
论文地址：download
论文代码：download

1 Introduction

　　本文提出一个完全对称的自编码器，其中

- 解码器 基于 Laplacian sharpening 设计；
- 编码器 基于 Laplacian smoothing 设计。

2 Preliminaries

2.1 Basic notations on graphs

Unnormalized graph Laplacian $\Delta$ is defined by $\Delta=D-A$
Symmetric graph Laplacian $L$ is defined by $L=I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$
Random walk graph Laplacian $L_{r w}$ is defined by $L_{r w}=I_{n}-D^{-1} A$
$\Delta$, $L$ and $L_{r w}$ 均为半正定矩阵

2.2 Spectral convolution on graphs

　　可以发现 2.2 节的内容在《第三代GCN》已经将的很清楚了，所以下面不再详细展开介绍。

　　谱卷积模型：

　　　　$g_{\theta} * x=U g_{\theta} U^{T} x\quad \quad \quad (1)$

　　其中：

- $U$ 是 symmetric graph Laplacian $L$ [ ps：$L=U \Lambda U^{T}$ ] 的特征向量矩阵，每一列代表着一个特征向量；
- $U^{T} x$ 是输入信号 $x$ 的图傅里叶变换；
- $g_{\theta}(\Lambda)$ 是 $L$ 的特征值函数，其中 $\Lambda$ 是 $L$ 的特征值组成的对角矩阵；

　　图卷积带来的问题：特征分解带来的计算复杂。

　　解决办法：使用 $K$ 阶切比雪夫多项式（$K^{t h}$ order Chebyshev polynomials）代替谱卷积核 $g_{\theta}(\Lambda)$ 。

　　　　$g_{\theta} * x \approx U \sum\limits _{k=0}^{K} \theta_{k}^{\prime} T_{k}(\tilde{\Lambda}) U^{T} x=\sum\limits _{k=0}^{K} \theta_{k}^{\prime} T_{k}(\tilde{L}) x\quad \quad \quad (2)$

　　其中

- $T_{k}(\cdot)$ 代表切比雪夫多项式；
- $\theta^{\prime}$ 代表着切比雪夫多项式的系数；
- $\tilde{\Lambda}$ 即 $\frac{2}{\lambda_{\max }} \Lambda-I_{n}$，其中 $\lambda_{\max }$ 代表 $L$ 的最大特征值；　　
- $\tilde{L}=U \tilde{\Lambda} U^{T}=\frac{2}{\lambda_{\max }} L-I_{n} $.

　　在 GCN 中，切比雪夫多项式近似设置 $K=1$、$\lambda_{\max } \approx 2$ 、 $\theta=\theta_{0}^{\prime}= -\theta_{1}^{\prime}$。因此谱卷积可以简化为：

　　　　$g_{\theta} * x \approx \theta\left(I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right) x \quad \quad \quad (3)$

　　然而，由于 $I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 会造成网络数值不稳定，这是因为 $I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的谱半径为 $2$ ，所以我们考虑将切比雪夫多项式的谱半径设置为 $1$。优化小技巧如下：

　　　　$I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \rightarrow \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} \quad \quad \quad (4)$

　　其中， $\tilde{A}=A+I_{n}$ ， $\tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j}$。因为在节点上添加 selfloop 到亲和矩阵不会影响相应图拉普拉斯矩阵的谱半径，这样可以保证 $I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的数值稳定，且保持它的意义：

　　　　$\left(I_{n}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right)_{i j}=\left\{\begin{array}{ll}1 & i=j \\A_{i j} / \sqrt{D_{i i} D_{j j}} & i \neq j\end{array}\right.\quad \quad \quad (5)$

　　　　$\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}}\right)_{i j}=\left\{\begin{array}{ll}1 /\left(D_{i i}+1\right) & i=j \\A_{i j} / \sqrt{\left(D_{i i}+1\right)\left(D_{j j}+1\right)} & i \neq j\end{array}\right.\quad \quad \quad (6)$

　　至此，GCN 前向传播可以表示为：

　　　　$H^{(m+1)}=\xi\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(m)} \Theta^{(m)}\right)\quad \quad \quad (7)$

　　其中：

- $H^{(m)}$ 代表着第 $m$ 层的 activation matrix ，$H^{(0)}$ 代表着节点的特征矩阵 $X $ ；　　
- $\xi(\cdot)$代表着非线性激活函数，通常是 $\operatorname{ReLU}(\cdot)=\max (0, \cdot) $ ；　　
- $\Theta^{(m)}$ 是可训练的权重矩阵；

2.3 Laplacian smoothing

　　 Li et al. 等人证明 GCN 是 Laplacian smoothing 的一种特殊形式。

　　Laplacian smoothing equation:

　　　　$x_{i}^{(m+1)}=(1-\gamma) x_{i}^{(m)}+\gamma \sum\limits_{j} \frac{\tilde{A}_{i j}}{\tilde{D}_{i i}} x_{j}^{(m)}\quad \quad \quad (8)$

　　其中:

- $\tilde{A}=A+I_{n}$ ；
- $\tilde{D}=D+I_{n}$ ；
- $\gamma (0<\gamma \leq 1)$ 是一个正则化参数，它控制自身与其邻居之间的重要性；

　　重写上述 equation 得：

　　　　$\begin{aligned}X^{(m+1)} &=(1-\gamma) X^{(m)}+\gamma \tilde{D}^{-1} \tilde{A} X^{(m)} \\&=X^{(m)}-\gamma\left(I_{n}-\tilde{D}^{-1} \tilde{A}\right) X^{(m)} \\&=X^{(m)}-\gamma \tilde{L}_{r w} X^{(m)}\end{aligned}\quad \quad \quad (9)$

　　其中 $\tilde{L}_{r w} $ 参考 Random walk normalized Laplacian 。

　　本文设置 $\gamma=1$ 并用 $\tilde{L}$ 代替 $\tilde{L}_{r w}$，然后 Eq. 9 转化为：

　　　　$X^{(m+1)}=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} X^{(m)}$

　　这个方程与 $\text{Eq.7}$ 中谱卷积的重新归一化版本相同。

3 Method

　　GALA 模型的编码器起到 Laplacian smoothing，而解码器起到 Laplacian sharpening。

3.1 Laplacian sharpening

　　编码器执行拉普拉斯平滑，使每个节点的潜在表示与其相邻节点的潜在表示相似。

　　拉普拉斯锐化是一个使每个节点的重构特征远离其相邻节点的质心的过程，它加速了重构速度，并受重构成本的控制。

　　Laplacian sharpening equation:

　　　　$x_{i}^{(m+1)}=(1+\gamma) x_{i}^{(m)}-\gamma \sum\limits _{j} \frac{A_{i j}}{D_{i i}} x_{j}^{(m)}\quad \quad \quad (10)$

　　 Eq.10 进一步化简 :

　　　　$\begin{aligned}X^{(m+1)} &=(1+\gamma) X^{(m)}-\gamma D^{-1} A X^{(m)} \\&=X^{(m)}+\gamma\left(I_{n}-D^{-1} A\right) X^{(m)} \\&=X^{(m)}+\gamma L_{r w} X^{(m)}\end{aligned}\quad \quad \quad (11)$

　　设置 $\gamma=1$ 而且用 $\tilde{L}$ 代替 $\tilde{L}_{r w}$，然后 Eq. (10) 化简转化为：

　　　　$X^{(m+1)}=(2 I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}})X^{(m)}$

　　将 Laplacian sharpening 表达为切比雪夫多项式的形式，并设置参数：

- $K=1$　　
- $\lambda_{\max } \approx 2$
- $\theta=\frac{1}{2} \theta_{0}^{\prime}=\theta_{1}^{\prime}$

　　然后解码器层可表达为：

　　　　$H^{(m+1)}=\xi\left(\left(2 I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right) H^{(m)} \Theta^{(m)}\right)\quad \quad \quad (12)$

　　$2 I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的谱半径为 3 , 同样是数值不稳定的。

方阵的谱半径

　　若 $\boldsymbol{A}=\left(a_{i j}\right)$ 是复数域上的 $\mathrm{n} $ 阶方阵，又 $\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n}$ 是 $A$ 的全部特征值，则

　　　　$\rho(\boldsymbol{A})= \underset{1 \leq i \leq n}{max} |\lambda_{i}|$

　　From previous articles,we know that

　　　　$D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的谱半径范围为 $[ -1,1]$

　　所以我们需要找一个数值稳定的 Laplacian sharpening 。

3.2 Numerically stable Laplacian sharpening

　　为寻找谱半径为 $1$ 的拉普拉斯锐化的新表示。

　　A signed graph is denoted by $\Gamma=(\mathcal{V}, \mathcal{E}, \hat{A})$ which is induced from the unsigned graph $\mathcal{G}=(\mathcal{V}, \mathcal{E}, A)$ .

　　Each element in $\hat{A}$ has the same absolute value with $A$ , but its sign is changed into minus or keeps plus.

　　The degree matrix $\hat{D}$ can be defined as $\hat{D}_{i i}=\sum\limits _{j}\left|\hat{A}_{i j}\right|$ .

　　因此，我们可以构建

- unnormalized graph Laplacian $\hat{\Delta}=\hat{D}-\hat{A}$.
- symmetric graph Laplacian $\hat{L}=I_{n}-\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}$ of the signed graph.

　　$\hat{L}$ 的特征值范围为 $[0,2]$，因此对于任意 $\hat{A}$ ，它的谱半径 $\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}$ 是 $1$。

　　利用上述结论，替换 Eq.12:

　　　　$H^{(m+1)}=\xi\left(\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}} H^{(m)} \Theta^{(m)}\right)\quad \quad \quad (13)$

　　其中:

- $\hat{A}=2 I_{n}-A$　　
- $\hat{D}=2 I_{n}+D$

　　$\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}$ 计算方式如下：

　　　　$\left(\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}\right)_{i j}=\left\{\begin{array}{ll}2 /\left(D_{i i}+2\right) & i=j \\-A_{i j} / \sqrt{\left(D_{i i}+2\right)\left(D_{j j}+2\right)} & i \neq j\end{array}\right.\quad \quad \quad (14)$

　　Eq.14 和 Eq.15 有同样的意义：

　　　　$\left(2 I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right)_{i j}=\left\{\begin{array}{ll}2 & i=j \\-A_{i j} / \sqrt{D_{i i} D_{j j}} & i \neq j\end{array}\right.\quad \quad \quad (15)$

　　这样做的目的：

- 将谱半径变成 $1$。
- $\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}$ 保留了和 $2 I_{n}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的性质。

　　总结，GALA 数值稳定的 decoder layer 可以表达为：

　　　　$H^{(m+1)}=\xi\left(\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}} H^{(m)} \Theta^{(m)}\right),\left(m=\frac{M}{2}, \ldots, M-1\right)\quad \quad \quad (16)$

　　其中

- $\hat{A}=2 I_{n}-A$　　
- $\hat{D}=2 I_{n}+D$

　　 GALA 的 encoder layer 表达为：

　　　　$H^{(m+1)}=\xi\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(m)} \Theta^{(m)}\right),\left(m=0, \ldots, \frac{M}{2}-1\right)\quad \quad \quad (17)$

　　其中

- $\tilde{A}=I_{n}+A$
- $\tilde{D}=I_{n}+D$

　　在 Table 1, 通过实验证明了拉普拉斯平滑不适合在解码器使用，同样说明了数值稳定的拉普拉斯锐化的优越性。

　　GALA 的重构损失：

　　　　$\min _{\bar{X}} \frac{1}{2}\|X-\bar{X}\|_{F}^{2}\quad \quad \quad (18)$

3.3. Subspace clustering cost for image clustering

　　对于图像聚类任务，我们在所提出的方法中添加了子空间聚类元素。

　　　　$\underset{\bar{X}, H, A_{H}}{min} \frac{1}{2}\|X-\bar{X}\|_{F}^{2}+\frac{\lambda}{2}\left\|H-H A_{H}\right\|_{F}^{2}+\frac{\mu}{2}\left\|A_{H}\right\|_{F}^{2}\quad \quad \quad (19)$

　　其中

- $H \in \mathbb{R}^{k \times n}$ 代表编码器的隐表示；
- $A_{H} \in \mathbb{R}^{n \times n}$ 表示亲和矩阵，它是子空间聚类的新潜在变量，

　　Eq. 19 的第二项针对子空间聚类的自我表达模型和 Eq. 19 的第三项用于正则化 $A_{H}$ 。

　　如果我们只考虑最小化 $A_{H}$，那么问题变为：

　　　　$\underset{A_{H}}{min} \frac{\lambda}{2}\left\|H-H A_{H}\right\|_{F}^{2}+\frac{\mu}{2}\left\|A_{H}\right\|_{F}^{2}\quad \quad \quad (20)$

　　我们很容易得到分析结果：

　　　　$A_{H}^{*}=(H^{T} H+\frac{\mu}{\lambda} I_{n})^{-1} H^{T} H $

　　通过使用这种解析解和奇异值分解，我们推导出计算效率高的子空间聚类成本函数，如下所示：

　　　　$\underset{\bar{X}, H}{min} \frac{1}{2}\|X-\bar{X}\|_{F}^{2}+\frac{\mu \lambda}{2} \operatorname{tr}\left(\left(\mu I_{k}+\lambda H H^{T}\right)^{-1} H H^{T}\right)\quad \quad \quad (21)$