自编码器

引言

前面三篇文章介绍了变分推断（variational inference），这篇文章将要介绍变分自编码器，但是在介绍变分自编码器前，我们先来了解一下传统的自编码器。

自编码器

自编码器（autoencoder）属于无监督学习模型（unsupervised learning），更严格地说属于自监督学习（self-supervised learning）。在自监督学习中，预测的目标来自输入数据本身，不需要人工标定——有监督学习（supervised learning），例如图像分类任务，需要人工标注图像中的物体是猫还是狗或者是其他东西。自编码器简单地说，就是实现将$x$转换为$y$，再将$y$转换回$x$的模型，如$(图1)$所示。

自编码器主要由编码器（encoder）和解码器（decoder）两个模块组成。编码器的任务是将输入数据编码成某种表征，而解码器的任务是将编码器的输出作为输入，将其解码成目标数据。不过Encoder-decoder的结构不仅用于自编码器，在普通的分类和回归任务上都有运用。例如，机器翻译中，编码器将原语言编码成隐表征，然后解码器再将隐表征翻译到目标语言，也就是一个由$x$到$y$再到$z$的过程。

(图1，来自https://blog.keras.io/building-autoencoders-in-keras.html)

自编码器的预测目标是输入本身，模型训练的目标是减小输出与输入的差异，可以表示为：

\begin{equation} \argmin_{E,D} E[L(x, D(E(x)))] \nonumber \end{equation}

其中$ \argmin_{E,D}$表示取编码器$E$和解码器$D$，使重构的$x$与原$x$差异尽可能小，也就是最小化重构误差$L$。这样的模型并不能直接用于我们常见的分类或回归这样的任务，因为这些任务的输出与输入是不同的。自编码器更多的是用来对数据进行降噪（denoising）——如$(图2)$所示，或者实现数据降维（dimension reduction）、数据压缩（compression）——例如将10维的向量转换为2维的向量——或者是作为其他模型的一个模块，例如通过对输入进行特定处理，从而让模型学习某些特定的数据表征（latent representation）。

(图2，来自论文《autoencoders》)

自编码器的实现

实现自编码器的方法有几种，大体上可以分为欠完备自编码器（undercomplete autoencoder）和正则化自编码器（regularited autoencoder）。

欠完备自编码器

欠完备自编码器，是通过在输入层和输出层之间插入一个维度较低的瓶颈层（bottleneck）——例如输入层和输出层的维度都是700，而瓶颈层的维度是30——或者采用维度逐层递减的编码器，和维度逐层递增的解码器组成的模型。插入瓶颈层的自编码器又称为香草自编码器（vanilla autoencoder）——香草通常表示最简单的方法。

原始的自编码器是多层感知机（MLP），内部采用的是全连接层，在处理图像数据的时候，将全连接层替换为卷积层通常能得到更好的结果，而在处理序列型数据的时候，我们则可以采用RNN等序列模型。另外，当编码器和解码器都是线性模型，例如我们把神经网络中的非线性的激活函数去掉，此时自编码器就是线性自编码器。如果在训练线性自编码器时采用平方误差损失函数（squared error cost function），那么编码器输出的隐表征与主成分分析（Principal Component Analysis，PCA）相似（赶时间，暂时不推导了，请参考论文$[1]$）。

正则化自编码器

正则化的方法有很多，例如可以使用L1正则化对神经网络的激活函数的输出进行处理。假设多多层感知机有三层，我们只对之间那层进行约束，那么自编码器的目标函数为：

\begin{align} &\argmin_{E,D} E[L(x, D(E(x)))] + \lambda \sum_i {|\bar{a}_i|} \nonumber \\ & \bar{a}_i = \frac{1}{n} \sum_j^n {a_i(x_j)} \end{align}

其中$\lambda$是超参数，由人设定，$a_i$是中间层第$i$个激活函数的输出，它是对$n$个数据计算后求平均的结果，$|·|$是L1正则化。

L1正则化方法需要设置超参数$\lambda$，如果采用KL散度来对激活函数进行约束，则可以避免设置超参数——要设其实也可以。在这种方法中，我们将激活函数的输出看成伯努利分布（Bernoulli distribution）——样本为1或0，为1的概率为$p$，$0<p<1$，这和sigmoid函数的取值范围一致。这样，自编码器的目标函数就变为：

\begin{align} &\argmin_{E,D} E[L(x, D(E(x)))] + \sum_i {KL(p \parallel \hat{p}_i)} \label{1} \\ & \hat{p}_i = \frac{1}{n} \sum_j^n{a_i(x_j)} \nonumber \end{align}

其中$\hat{p}_i$对应第$i$个激活函数对$n$个数据的平均值，$p$为是一个较小的值（例如0.05），这样就可以使神经元变得稀疏（值趋近于0），所以这种方法与L1正则化是相似的。

另一种正则化的模型是CAE（Contractive AutoEncoder）。这是由Bengio等人提出来的，它的目标是降低模型对数据波动的敏感度。在GAN专题的介绍WGAN的篇章，有一个概念叫Lipschitz约束：

\begin{equation} \frac{\parallel f(x_1) - f(x_2) \parallel}{\parallel x_1 - x_2 \parallel} \leq k \nonumber \end{equation}

其中$k$是某个值，等号左边要小于等于它。使模型满足这种约束的一种方法是梯度惩罚（gradient penalty），因为上面的式子可以认为是在计算梯度的绝对值。梯度，也就是一阶导，从向量和矩阵的角度讲，就是雅可比矩阵（Jacobian matrix）。CAE模型也是要对Jacobian矩阵进行约束，从而使模型更加鲁棒（robust），不会对数据太敏感。CAE的目标函数如下：

\begin{equation} \argmin_{E,D} E[L(x, D(E(x)))] + \lambda \parallel J_E(x) \parallel_2^2 \nonumber \end{equation}

其中$\parallel J_E(x) \parallel_2^2$是计算雅可比矩阵的Frobenius范数，$J_E(x)$是Jacobian矩阵，它的基本形式如下：

\begin{bmatrix} \frac{\partial h_1}{\partial x_1} & \frac{\partial h_1}{\partial x_2} & \dotsb & \frac{\partial h_1}{\partial x_n} \\ \frac{\partial h_2}{\partial x_1} & \frac{\partial h_2}{\partial x_2} & dotsb & \frac{\partial h_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial h_n}{\partial x_1} & \frac{\partial h_n}{\partial x_2} & dotsb & \frac{\partial h_n}{\partial x_n} \end{bmatrix}

而Frobenius范数是矩阵所有元素$J_{i,j}=\triangledown_{x_i} h_j(x_i)$的平方和再取平方根$\sqrt{\sum_{i,j}{J_{i,j}^2}}$，$h_j$是第$j$个神经元$h = a(Wx + b)$。

变分自编码器

式$(\ref{1})$向我们展示了自编码器目标函数的一种构造方法，其中KL散度作为正则项（regularizer）去控制模型内部的神经元。我们可以将$(\ref{1})$中的KL散度用另一个KL散度替换：

\begin{equation} \argmin_{E,D} E[L(x, D(E(x)))] - \sum_i {KL(q(z|x) \parallel p(z|x))} \label{2} \end{equation}

(图3，来自https://towardsdatascience.com/intuitively-understanding-variational-autoencoders-1bfe67eb5daf)

式$(\ref{2})$并不是变分自编码器的目标函数，因为就像前面的文章中提到的，后验$p(z|x)$是难以计算的，要得到变分自编码器的目标函数，我们要用$ELBO$替换了这里的KL散度。$ELBO$的数学表示如下：

\begin{align} ELBO(q) &= E_q [\log{p(x|z)} ] - KL(q(z|x) \parallel p(z)) \label{3} \\ &= E_q [\log{p(z,x)} ]- E_q [\log{q(z)} ] \label{4} \end{align}

其中$p(x|z)$是似然，可以看作是解码器，$p(z)$是隐变量$z$的先验（prior）。优化式$(\ref{3})$，可以看作是求最大似然（maximum likelihood），同时最小化KL散度。（提一点，仅仅从理论上看，因为似然可以看作的解码器，变分自编码器并不需要一个真正的解码器模块存在，也就是说式$(\ref{2})$前面的重构误差可以不要，所以一些文章认为变分自编码器不是真正意义上的自编码器。）

为了求解$ELBO$，我们需要对$z$进行采样。假设$z \sim q(z|x)=N(\mu,\sigma^2)$服从某个高斯分布，也就是说我们把高斯分布作为$q(z|x)$的族，优化$ELBO$就是求高斯分布的参数$\mu$和$\sigma^2$，使$ELBO$最大。得到参数$\mu$和$\sigma^2$后，我们就可以从高斯分布中采样$z$。具体方法是通过$z=g(\epsilon, x)=\mu + \sigma \epsilon$。这里$\epsilon$是一个随机噪音，服从高斯分布$N(0,I)$，也就是说向量$\epsilon$中的元素的值在[0,1]区间。这样设置$\epsilon$，采样得到的$z$能够服从$N(\mu,\sigma^2)$分布。这个采样过程如$(图3)$所示。我们用某个函数$g(\epsilon,x)$代替$q(z|x)$，用$\mu$和$\sigma$代替$z$。这是一种重参数化(reparameterization)的方法——重参数化在GAN专题中介绍参数归一化（weight normalization）时也有提到。

经过重参数化，并且采用stochastic的策略，我们就将$ELBO$变为：

\begin{align} &ELBO= \frac{1}{M} \sum_{m=1}^M {\log{p(x_i, z_{i,m})}} - \log{q(z_{i,m},x_i)} \nonumber \\ &z_{i,m} = g(\epsilon_{i,m}, x_i) \nonumber \end{align}

因为式$(\ref{3})$中的KL散度是可以求解析解的，所以也可以采用下面的式子：

\begin{align} &ELBO = \frac{1}{M} \sum_{m=1}^M {\log{p(x_i| z_{i,m})}} -KL(q(z|x) \parallel p(z)) \nonumber \\ &z_{i,m} = g(\epsilon_{i,m}, x_i) \nonumber \end{align}

其中$M$是批数据的数据量，它可以是较小的值，甚至是1。

进阶实例

为了能够更深入地理解自编码器，这里我们对一篇论文中的模型进行介绍。这篇论文是$[2]$。在这篇论文中，作者介绍了自编码器的一种特殊形式，ALAE，它结合了自编码器和GAN两种模型，（如图4所示）。

相比于传统的自编码器，编码器与解码器的目标是将输入的$x$转换成隐藏层$h$（论文中的$w$），然后再将$h$转化为$x$，这里的自编码器则是实现数据从$h$的隐分布（latent distribution）到$x$对应的真实数据分布，最后再输出服从$h$的分布的数据的过程。

但是在$h \to x \to h$这样的编码解码模式下，服从隐分布的数据$h$来自哪呢？作者团队采用了GAN的生成器的方法，预先设定一个分布，然后通过生成器$F$将此分布的数据$z$映射到$h$的隐分布，这样就得到了$h$，剩下的就是将$h$转换为$x$再转化为$h$。

有了$h$，现在的问题是，如何保证模型生成的$x$服从真实的$x$的分布呢？为了解决这个问题，作者采用了GAN中的对抗机制（adversary）。来自真实数据的$x$和生成的$x$一样，都会经过解码器$E$转换成$h$，生成的$h$会作为判别器$D$的输入。判别器$D$的作用是尽可能的分辨$h$是来自真实的$x$还是生成的$x$，而判别器$D$之前的模型相对于GAN的生成器，目标是使两种$h$的分布尽可能一致，使判别器$D$难以分辨。通过这样的对抗机制，模型就能保证生成的$x$的分布接近真实的分布。

为了保证经过编码转换为$x$后，再经过解码能返回原先的$h$，模型在优化的时候，需要减小输入的$h$与解码得到的$h$的差异。另外，为了让模型更具有普遍性，编码器$G$的输入除了$h$，还有噪音。

在应用预测的时候，模型的模块会重新组织，与传统的自编码器一致（如图4中的Inference）。真实数据，例如图像，会经过上面的解码器$E$（在这里作为编码器），生成隐藏层$h$，然后$h$再经过上面的编码器$G$（这里作为解码器）输出最终的结果，也就是图像或其他真实数据。

对于论文中，模型在训练和在预测的时候采用不同的组织方式，原因是这样能够更有效地运用正则化处理。以传统的自编码器的训练方式，进行正则化处理，数据经过编码器和解码器输出的结果质量会变差。例如在图像处理中，输出的图像会变得模糊。但如果是对隐藏分布进行正则化处理，就不会有这样的限制。选择任何方式，只会对隐藏分布产生影响，都不会对真实数据的分布产生太大的影响。

除了基础的ALAE模型，作者还借鉴了StyleGAN——在GAN专题的最后一篇中有介绍——设计了StyleALAE。在StyleALAE中，作者将$H$作为中间隐藏空间（intermediate latent space）。数据$z$在$F$中的各层通过实例标准化层（IN，Instance Normalization layer）转化为对应的实例均值和标准差，作为这一层的风格（style）。这些风格信息在经过AdaIN（Adaptive Instance Normalization layer）生成$h$，然后与噪音一起，经过卷积层转化为$x$。

(图4，来自论文《adversarial latent autoencoders》)

[1] Plaut, E. (2018). "from_principal_subspaces_to_principal_components_with_linear_autoencoders".

[2] Pidhorskyi, S., Adjeroh, D., A., Doretto, G. (2020). "Adversarial Latent Autoencoder".

发表于 2020-06-22 23:45 Kokosnuss4 阅读(2221) 评论(0) 收藏举报

刷新页面返回顶部

自编码器

公告

导航