变分贝叶斯推断(Variational Bayesian Inference)

~~变分贝叶斯推断(Variational Bayesian Inference)

变分贝叶斯方法主要处理复杂的统计模型,贝叶斯推断中参数可以分为 可观变量 和 不可观变量,这其中不可观部分进一步分为 隐含参数 和 隐含变量。

变分贝叶斯的核心任务是寻找一个 概率分布$Q\left( {x;\theta } \right)$ 去逼近真实的$P\left( x \right)$, 并使用KL散度去估计其具体逼近程度,因为与逼近程度负相关,所以可以姑且称为 不相似度。KL散度会在之后具体说明讨论。更准确地说是在逼近后验概率,即用  ${Q\left( {x} \right)}$ 去尽量逼近 ${P\left( {x\left| D \right.} \right)}$。

变分法是以函数为变量求解最优问题的方法。

变分法的优点主要是:有解析解、计算开销较小、易于在大规模问题中应用。

~~KL散度
根据定义,有
\[KL\left[ {Q\left( x \right)\left\| {P\left( {x\left| D \right.} \right)} \right.} \right] = \int {dx \cdot Q\left( x \right)} \ln \frac{{Q\left( x \right)}}{{P\left( {x\left| D \right.} \right)}}\]
其中$D$为所观测的数据,而$x$是不能观测的数据。

~~平均场假设
\[Q\left( x \right) = \prod\limits_i {{Q_i}\left( {{x_i}\left| {{\theta _i}} \right.} \right)}\]
显然的,$x_i$各自独立,与此同时$\theta_i$之间也没有相互作用。这里假设的就是各观测数据之间是不会互相干扰的。
与此同时,还需要这些各自独立的分布也需要归一化:
\[\int {d{x_i} \cdot {Q_i}\left( x \right)} = 1\].
显而易见的是,这点是我们所用估计模型——概率分布$Q\left( {x;\theta } \right)$ 的特点, 而不是原本分布的特点。
从边缘概率角度而言,对于$P_i\left( x \right)$, $Q_i\left( x \right)$很可能是个很差的估计。

~~ELBO(证据下界Evidence Lower Bound)和KL散度的关系
由贝叶斯公式:

\[\ln P\left( D \right) = \ln P\left( {x,D} \right) - \ln Q\left( x \right) - \ln \frac{{P\left( {x\left| D \right.} \right)}}
{{Q\left( x \right)}}\]

对$Q\left( D \right)$做期望

\[\begin{gathered}
\int {dx \cdot Q\left( x \right)} \ln P\left( D \right) = \int {dx\cdot Q\left( x \right)} \ln P\left( {x,D} \right) - \int {dx \cdot Q\left( x \right)} \ln Q\left( x \right) \hfill \\
- \int {dx \cdot Q\left( x \right)} \ln \frac{{P\left( {x | D} \right)}}
{{Q\left( x \right)}} \hfill \\ 
\end{gathered} \]

其中$Q\left( x \right)$与$P\left( D \right)$相互独立,$Q\left( D \right)$的选定显然与系统本身之间的独立,相关性是后期赋予的。

进而有

\[\begin{gathered}
\ln P\left( D \right) = \underbrace {\int {dx \cdot Q\left( x \right)} \ln P\left( {x,D} \right) - \int {dx \cdot Q\left( x \right)} \ln Q\left( x \right)}_{ELBO} \hfill \\
\underbrace { - \int {dx \cdot Q\left( x \right)} \ln \frac{{P\left( {x | D} \right)}}
{{Q\left( x \right)}}}_{KL\left( {Q\left\| P \right.} \right)} \hfill \\ 
\end{gathered} \]

显然,$\ln P\left( D \right)$作为数据真值而确定,导致  ${KL\left( {Q\left\| P \right.} \right)}$与ELOB是此消彼长的。

当我们在制定确定的$Q\left( {x;\theta } \right)$时,应该考虑如何用尽可能简单的$Q\left( {x;\theta } \right)$最大化ELBO

而最小化${KL\left( {Q\left\| P \right.} \right)}$, 从而使得$Q\left( {x;\theta } \right)$的逼近更准确。

 

posted @ 2020-04-01 11:16  chainplain  阅读(1890)  评论(0编辑  收藏  举报