贝叶斯神经网络

概述

贝叶斯神经网络是一类神经网络模型，模型的参数不是固定的值，而是分布，如$(图1)$所示。这样设置，我们就能够对数据和模型的不确定性（uncertainty）进行评估。例如有一个函数$f(x)=y$，当函数$f$确定时，输入$x$能得到唯一确定的y，如果我们调整$f$，得到的$y$就会发生变化。

现实中，数据内部通常会存在不确定性，$x$和$y$之间存在一定随机性。对于数据$x$和$y$，函数$f$的参数$w$服从后验$p(w|x,y)$，而不是确定的值。但是像在之前变分推断的文章中分析的，后验难以计算，所以我们要想办法将它转换为简单的可计算的问题。其中一种求近似问题的方法就是变分推断。变分推断是解决贝叶斯神经网络中的后验估计的流形方法，因为这种方法计算较快，而且适用于大规模数据——另一种方法是MCMC（Markov Chain Monto Carlo，马尔科夫链蒙特卡洛），它适合处理小规模数据，今后会介绍。

(图1，来自论文《Weight Uncertainty in Neural Networks》)

不确定性

上面说了，贝叶斯神经网络可以评估不确定性。论文$[1]$中将不确定性分为两类，偶然不确定性（aleatoric uncertainty）和认知不确定性（epistemic uncertainty）。偶然不确定性是指数据本身存在的不确定性，它可能是现实中各种原因造成的，例如传感器接收信号时产生的波动。这类不确定性并不会随着我们采集的数据的增加而减小。同时，这类不确定性又可以划分为同方差不确定性（homoscedastic uncertainty）和异方差不确定性（heteroscedastic uncertainty），其中前者表示所有子数据集中的不确定性都相同，而后者指不同子数据集中不确定性并不相同，可能某一部分数据中不确定性更大，而其他子数据集的不确定性较小。而认知不确定性性又称为模型不确定性（model uncertainty），这种不确定性随着处理的数据的增长，会逐渐降低，这就像当我们接触到越来越多的外国人时，我们对他们的认识就更全面。当我们缺乏对某样东西的认识时，我们会随意地相信我们相信的东西，模型也是一样。当模型没有见过某类数据时，它可以自由地设定它的参数$w$。对于参数的这种不确定性，我们可以用后验$p(w|x,y)$来评估。

变分推断

\begin{align} ELBO(q) &= E_q [\log{p(D|w)} ] - KL(q(w|D) \parallel p(w)) \label{1} \\ &= E_q [\log{p(w,D)} ]- E_q [\log{q(w)} ] \nonumber \end{align}

为了求解$

用$\mu$和$\sigma^2$，或者说用$\mu$和$\rho$代替$w$，这种方法被称为重参数法（reparameterization trick)。这样，我们就可以采用stochastic的方法，优化我们的目标函数$ELBO$：

\begin{align} &ELBO= \frac{1}{M} \sum_{m=1}^M {\log{p(D_i, w_{i,m})}} - \log{q(w_{i,m},D_i)} \label{2} \\ &w_{i,m} = g(\epsilon_{i,m}, D_i) \nonumber \end{align}

因为式$(\ref{1})$中的KL散度是可以求解析解的，所以也可以采用下面的式子：

\begin{align} &ELBO = \frac{1}{M} \sum_{m=1}^M {\log{p(D_i| w_{i,m})}} -KL(q(w|D) \parallel p(w)) \nonumber \\ &w_{i,m} = g(\epsilon_{i,m}, D_i) \nonumber \end{align}

采用stochastic的方法，我们可以处理大规模的数据，因为$M$是批数据的数据量，它可以是较小的值，甚至是1。但是，我们可以发现，普通的神经网络模型的参数是$w$，而现在变成了$\mu$和$\rho$，参数的规模为原来的两倍。

参数先验

我们可以用$(\ref{2})$的方法计算参数的先验，但这样计算出来的先验是基于训练集的。除了$(\ref{2})$，还有其他方法设定可以先验，例如论文$[2]$中采用的混合尺度先验：

\begin{equation} p(w) = \prod_i {\pi N(w_i|0, \sigma_1^2) + (1-\pi)N(w_i|0, \sigma_2^2)} \nonumber \end{equation}

其中$\pi$是[0,1]区间的随机数，当$\pi=1$时$w$来自等号右边的第一个高斯分布，而当$\pi=0$时$w$来自第二个高斯分布，当$0<\pi<1$时是两个分布的混合。另外，第一个高斯分布的方差$\sigma_1^2$大于$\sigma_2^2$，且$\sigma_2^2$远小于1，从而使这些参数趋近于0。

除了混合尺度先验外，还有spike-and-slab先验、马蹄铁先验（horsehoe prior）等先验。

优化过程

我们采用随机优化的方法来优化$(\ref{1})$$ELBO$。假设每次只处理一条数据，并且取负的$ELBO$，从而将目标转换为最小化目标函数，那么$(\ref{1})$可以这样表示：

\begin{align} L &= -ELBO = - \log{p(D|w)} + \log{q(w|D)} - \log{p(w)} \nonumber \\ &= \log{q(w|D)} -\log{p(w)p(D|w)} \nonumber \end{align}

其中变分分布$q(w|D)$可以替换为$q(w|\mu,\rho)$。此时，优化参数$\mu$和$\rho$，可以采用随机梯度下降法（Stochastic Gradient Descent，SGD）：

\begin{align} &\mu^{t+1} = \mu^{t} - \lambda \Delta \mu \nonumber \\ &\rho^{t+1} = \rho^{t} - \lambda \Delta \rho \nonumber \\ &\Delta \mu = \frac{\partial L}{\partial w} + \frac{\partial L}{\partial \mu} \nonumber \\ & \Delta \rho = \frac{\partial L}{\partial w}\frac{\varepsilon}{1+ \exp{-\rho}} + \frac{\partial L}{\partial \rho} \nonumber \end{align}

可以发现，$\frac{\partial L}{\partial w}$就是普通的神经网络的梯度。

局部重参数技巧

前面说到，对模型参数进行重参数化处理，会使模型参数的规模增大，而采用局部重参数化的方法，可以降低模型的计算量。局部重参数化，是将对参数的重参数化处理，替换为对激活函数的输出的重参数处理。这种方法假设激活函数的输出服从下面的高斯分布：

\begin{equation} o_{j,n}^l \sim N(\sum_{i=1}^{dim \, l-1}{\mu_{j,i}^l a_{i,n}^{l-1}}, \sum_{i=1}^{dim \, l-1}{(\sigma_{j,i}^l)^2 (a_{i,n}^{l-1})^2}) \nonumber \end{equation}

其中$a_{i,n}^{l-1}$是第$n$个数据对应在神经网络的第$l-1$层的第$i$个单元的输出，$dim \, l-1$表示第$l-1$层的维度，也就是神经元数目，$\mu_{j,i}^l$和$\sigma_{j,i}^l$是从第$l-1$层的神经元$i$到第$l$层的第$j$个神经元的参数。另外，$a_{j,n}^l=f(o_{j,n}^l)$，其中$f$是激活函数。所以：

\begin{equation} o_{j,n}^l = \sum_{i=1}^{dim \, l-1}{\mu_{j,i}^l a_{i,n}^{l-1} +\varepsilon_{j,n}^l \sqrt{(\sigma_{j,i}^l)^2 (a_{i,n}^{l-1})^2} } \nonumber \end{equation}

其中$\varepsilon_{j,n}^l \sim N(0,1)$。

局部重参数化有一个缺点，就是它只能用于没有参数共享的神经网络，例如全连接网络（fully-connected neural network）。但是收局部重参数技巧的启发，有一种通用的方法可以用各种模型，它就是variational dropout（这里就不细讲了，以后有时间在补充吧）。

预测

贝叶斯神经网络将神经网络嵌套到贝叶斯框架中。在贝叶斯推断（Bayesian inference）中，预测$y$值采用：

\begin{align} p(\hat{y}|\hat{x}) &= E_{p(w|x,y}[p(\hat{y}|\hat{x},w)] \nonumber \\ &= \int{p(w|x,y)p(\hat{y}|\hat{x},w)}dw \end{align}

其中$\hat{y}$是未知的预测值，$\hat{x}$是新数据，$x$和$y$来自训练集，$w$是模型参数，$p(w|x,y)$是$w$的后验，是我们上面变分推断所近似的分布。事实上，经过上面的变分推断以及重参数处理，后验已经替换为变分分布$q(w|\mu,\rho)$。另外，后验又可以看作是以$w$为参数的模型$p(\hat{y}|\hat{x},w)$的权重，因此贝叶斯神经网络相当于集成模型，计算模型平均。

$(图2)$展示了贝叶斯神经网络和标准神经网络预测的区别。图中黑色的交叉是训练集数据点，红色的是线条和浅蓝色区域是对所有数据（包括训练集）预测的结果，其中红线是预测的中位数（median），蓝色区域是四分位数区域（interquartile range）。可以看到，对训练集没有覆盖的区域，标准的神经网络从试图使预测结果的方差减小为0，这会使某些趋向于拟合到某个确定的函数，而这个函数未必是正确的——就像我们对不了解的东西可能有某种偏见，例如歧视。而贝叶斯神经网络则给这些区域的预测结果较低的置信度（confidence），也就是有更多可能的结果。贝叶斯神经网络，在认知不确定性较高的区域，其预测结果一定程度上取决于先验$p(w)$。不同的先验选择会带来不同的预测结果。

(图2，来自论文《Weight Uncertainty in Neural Networks》)

结语

经过三篇变分推断、一篇自编码器以及这篇贝叶斯神经网络，我们对变分推断应该是有了一个比较全面的认识。为了控制时间，文章的质量可能不是很好，而且删除了一些知识点。被删掉的知识点以后可能会补充进来（看心情）。不管怎么，希望这几篇文章对读者能够有帮助。

[1] Kendall, A., Gal, Y. (2017). "What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?".

[2] Blundell, C., Cornebise, J., Kavukcuoglu, K., Wierstra, D. (2015). "Weight Uncertainty in Neural Networks".

发表于 2020-06-22 23:46 Kokosnuss4 阅读(6312) 评论(1) 收藏举报

刷新页面返回顶部

贝叶斯神经网络

公告

导航