pgm7

和 Koller 的 video 最大的不同莫过于书上讲 LBP 的角度不是 procedural 的，而是原理性的。我们先看个 procedural 的，在一般的 cluster graph 上的 BP 改进版即 loopy belief propagation 先将所有的 message 初始化为 1，然后依照原先的策略进行消息传递，直到收敛为止。这里面收敛很可能不是所有的消息都能收敛，同时传递消息的顺序一般比较 tricky，过去认为有效的同步传递方式已经被搞清楚很多情况下不能收敛到合理的解了。另外一旦收敛了，我们可以证明得到的结果是 calibrated。问题是我们就算了解了这些过程性的东西，仍然无法弄清楚 LBP 究竟在干啥，有的 margin 似乎能收敛到正确的，有的却不行。

为此我们需要换一个角度来理解 LBP，这也就是这部分我们讨论的重点。值得注意的是很多方法上的东西的确在历史上出现在前，但是“换思路”有时候才能揭示一些更深层的东西。这里的思路就是把 inference 通过 optimization 的形式表述出来，这样我们就得到了 LBP 的另外一种 interpretation：使用 fixed point 优化这个近似的目标函数。这也提供给我们了一些其他的思路，比如 expectation propagation 使用的仍然是精确的目标函数，但是传递的是近似的消息。又比如 mean field approximation，这也是用的精确的目标函数，但是将约束松弛到一族给定了分解形式的分布上。

那么问题就来了，如何能把 inference 转换到 optimization 上来呢？这就要借助前面讨论的 I-projection 和 M-projection 了。咋一看似乎前面的讨论偏向 M-projection，但实际上却不是，因为 $D(P_\Phi \| Q)$ 需要计算在 $P_\Phi$ 下的矩，这意味着我们仍然得回答这个分布下的 inference 问题，因此 I-projection 实际用的反而更多。有了目标函数以后，第二个问题是我们找到的分布 $Q$ 需要满足什么条件。假设我们根据一个 clique tree（满足 RIP 和 family preserving property）存在一个 belief 参数化的 $Q$ ，即

$\displaystyle Q(\mathcal{X}) = \frac{\displaystyle \prod \beta_i}{\displaystyle\prod_{i \sim j\atop i< j} \mu_{i, j}}$

这势必要求我们找到的 $\beta_i$ 与 $\mu_{i, j}$ 满足类似的 consistency 约束，

$\displaystyle\sum_{c_i} \beta_i (c_i) = 1, \sum_{C_i - S_{i, j}} \beta_i (c_i) = \mu_{i, j}$

一个要求 $\beta_i$ 的确是边际分布，一个要求具有 consistency。有了这几点我们就可以得到一个 constrained optimization：我们希望找到对应的 $\beta_i$ 与 $\mu_{i, j}$ 使得对真实分布 I-projection 最小，同时满足以上两个约束的 $Q$ 。事实上，上篇里面的 BP 算法找到的就是这个优化问题的唯一最优解。

我们进一步讨论关于能量函数 $D(Q \| P_\Phi)$ ，容易证明它等价于 $\log Z - F[\tilde{P}_\Phi, Q]$ ，即最大化 Helmholtz free energy，其中自由能 $F[\tilde{P}_\Phi, Q] = \mathbb{E}_Q \Big[ \log \tilde{P}_\Phi\Big] + H_Q$ ，注意这里由于 $\log \tilde{P}_\Phi$ 可以利用其分解拆成每个 factor 上的期望，计算可望得以简化。而如果 $Q$ 存在类似的分解，我们也可以想象 $H_Q$ 也是容易计算的。我们一般称这个自由能为 energy functional，容易看出来其值被 $\log Z$ 所 bound。由于这是一个函数优化问题，我们常使用变分方法求解（variational methods）。

为了进行求解，我们需要将 $\tilde{P}_\Phi$ 和 $Q$ 的具体形式代入以上目标函数，这样我们就获得（如果 $Q$ 是 calibrated，这样保证最后关于 sep set 的熵是合法的）

$\displaystyle \tilde{F}[\tilde{P}_\Phi, Q] = \sum_{i \in \mathcal{V}} \mathbb{E}_{C_i\sim \beta_i} \log \psi_i + \sum_{i \in \mathcal{V}} H_{\beta_i} (C_i) - \sum_{(i, j)\in \mathcal{E}} H_{\mu_{i, j}} (S_{i, j})$

（注：对一般的 cluster graph 一般说来 $F$ 和 $\tilde{F}$ 并不相等，这里假定了是一个 calibrated clique tree 的 $Q$ ）在有约束的情况下我们一般使用 Lagrange multiplier 写出 Lagrange function，

$\displaystyle\mathcal{J} = \tilde{F} [\tilde{P}_\Phi, Q] - \sum_{i \in \mathcal{V}} \lambda_i \left(\sum_{c_i} \beta_i(c_i) - 1 \right) - \sum_i \sum_{j \sim i} \sum_{s_{i, j}} \lambda_{j\to i}(s_{i, j})\left( \sum_{C_i - S_{i, j}} \beta_i(c_i) - \mu_{i, j}(s_{i, j})\right)$

这样我们分别计算对 $\beta_i$ 和 $\mu_{i, j}$ 的变分可以得到

$\displaystyle\frac{\partial \mathcal{J}}{\partial \beta_i(c_i)} = \log \psi_i(c_i) - \log \beta_i (c_i) - 1 - \lambda_i - \sum_{j \sim i} \lambda_{j \to i}(s_{i, j})$

$\displaystyle\frac{\partial \mathcal{J}}{\partial \mu_{i, j} (s_{i, j})} = \log \mu_{i, j}(s_{i, j}) + 1 + \lambda_{i \to j} (s_{i, j})$

如果令 $\delta_{i, j}(s_{i, j}) = \exp\left( -\lambda_{i \to j}(s_{i, j} - \frac{1}{2})\right)$ 这样我们就得到了 belief update 里面的参数，我们将其该写成 $\delta_{i\to j}$ 就得到了 message passing 里面的形式，但额外乘以某个常数。至此我们说明了，所得分布 $Q$ 是 stationary point 的充要条件，

$\displaystyle \delta_{i\to j} \propto \sum_{C_i - S_{i, j}} \psi_i \left( \prod_{k \sim i} \delta_{k \to i}\right)$

这个条件由于对应的是 fixed point 方程的一个迭代解法，这导致了我们一般 LBP 算法的另一个 interpretation。对 tree 结构而言，迭代一次后 message 就收敛了（没有 loop 的原因）。事实上，在 cluster graph 上沿袭 clique tree 的算法，也可以类似的应用到 $\beta_i$ 和 $\mu_{i, j}$ 的参数化（belief update）上，我们可以证明它仍然保证了分布的不变性（cluster graph invariance），从这个角度来说它就是试图使用另外的方式组织 factor 使得该表示更加有用。

为了研究 LBP 的近似程度，我们可以在 cluster graph 选择一个子树，如果原图是 calibrated，我们的这棵子树也将是 calibrated，我们可以检查其上的 belief 是否和其上的 marginal 一致，事实上存在一致的也存在不一致的情形。对收敛性的分析一般在 synchronous 更新上比较容易做（但是 synchronous 效果很差，不建议使用），使用的技巧是 $\alpha$ contraction。

和 clique tree 类似，选择合理的 cluster graph 意味着对计算精度和效率的 tradeoff，常用的一种选择是 Bethe cluster graph，这似乎就是 Frey 所说的 factor graph：每个 $phi_i$ 对应一个顶点，每个变对应一个顶点，然后按照关联关系加边，这个二分图上做 LBP 就是 Frey 同志所说的 factor graph 上做 inference 的策略了。我们可以说明一下为什么这是一个 cluster graph（验证一下比如 family preserving，RIP 等）。Bethe cluster graph 比较容易 missing 的是两个变量的相互作用，因为 cluster 之间的关系只能通过单个变量来进行。

那么从算法上对 BP 的修正意味着对目标函数如何的变化呢？注意前面的目标函数（自由能）虽然并不方便（计算难），我们仍然可以使用 factorized 的版本 $\tilde{F}(\tilde{P}_\Phi, Q)$ （因为已经不是 calibrated cluster tree，两者并不相等）近似，因此此时的 $Q$ 也不再是和原先的 margin 一一对应，而是所谓的 pseudo margin（我们把前面那些约束统称为 local consistency polytope），这样，尽管我们求解的形式完全一样，但是优化的目标出现了近似，这也导致我们的选择的 belief 变成了 pseudo margin。

当我们选择 Bethe cluster graph 时对应的 energy functional 也称为 Bethe free energy，其中熵的部分可以写成

$\displaystyle \sum_{\phi \in \Phi} H_{\beta_\phi} (C_\phi) - \sum_{i} (d_i - 1) H_{\beta_i} (X_i)$

其中 $d_i$ 是 $X_i$ 出现在 factor 中的次数。那么一种可能的近似是将 r.v.s 放在 region 里面，然后也有对应的数数，，这称为 weighted approximate entropy。另一种策略就是通过调整前面的 weight 使得最后这部分是一个“凹函数”（因为是 maximize free energy），这种策略看起来不错但是实际操作上如果 LBP 收敛了其效果和性能都不如 LBP，而如果 LBP 失败了则会有一定的优势。从划分 region 的想法还会导致所谓的 region graph（抛弃 cluster graph 的 idea，这是一个 nested 结构）。region graph 是个有向图，每个 node 表示一个 r.v.s 的子集，而边表示子集的包含关系（父节点也是父集），每个 region 都有自己的 counting number，一般记为 $\kappa_r$ （不见得是正整数），这个可以类似的定义 family preserving property，也可以定义 energy functional，

$\displaystyle\tilde{F} [\tilde{P}_\Psi, Q] = \sum_r \kappa_r \mathbb{E}_{C_r} \log \psi_r + \tilde{H}_Q (\mathcal{X})$

类似我们也能定义 calibration，另外我们为了在合适的 region graph 上导出对应的 message passing 以及对应的 fixed point equations，还需要

variable connectedness：一个 r.v. 对应的顶点形成一个联通分支
factor connected ness：对每个 factor $\phi_i$ 也形成联通分支
factor preservation： $\sum_{r \in \alpha(\phi)} \kappa_r = 1$
RIP，对每个变量 $\sum_{r \in R_i} \kappa_r = 1$

关于 LBP 一个很重要的应用是 turbocodes 里面，我们知道解码往往就是通过观测到被污染的编码后的信息解析出来生成这个编码的数据（因为我们知道原始数据和编码方式，我们可以简单的用这个手段分析一个编码的优劣，并且 Shannon 同志已经搞定了理论下界，我们只需要想办法接近它就行），turbocodes 通过两个 codec 并且在两部分 inference 进行 LBP 这获得了非常接近理论界的 codec。这个发现也使得本来已经停滞不前的 approximate inference 研究重新审视 LBP。

从 Koller 的 video 里面我们还知道下面几个东西：

LBP 很可能出现问题的情况是 tight loop，strong potential 且 conflicting message
LBP 的 convergence 是 local property，有的就是不会收敛，通常实现的时候达到迭代次数后就会停止
LBP 的 message passing order 很重要，常用的有 tree reparameterization（TRP），选择一个树，然后在该结构上做一次（因为收敛了），然后不停的重复，尽量选大的树（如 expanding tree）；residual belief prpagation（RBP），选择在 sepset 上 disagree 最多的 cluster 进行消息传递
加速 LBP 的策略还有 damping：和上次的 message 凸组合。

后面我们讨论另外两种 approximate inference 的策略。

——————
And yet indeed she is my sister; she is the daughter of my father, but not the daughter of my mother; and she became my wife.

posted @ 2014-06-07 22:18 prml 阅读(285) 评论(0) 收藏举报

刷新页面返回顶部

pgm7

公告