PRML第五章习题答案

Chapter 5. Neural Networks
- 习题简述
- 习题详解

Chapter 5. Neural Networks

更新日志（截至20210802）

20210802：添加习题 5.8，5.16，5.19-5.20，5.2，5.27，5.29，5.32，5.37-5.38 的详解
20210404：添加习题 5.25 的详解
20210325：首次提交，含习题简述和习题 5.17 的详解

习题简述

5.1：使用 \(\sigma\) 和 \(\text{tanh}\) 的双层感知机可以通过线性变换等价
5.2：优化平方损失相当于假设输出服从各向同性的高斯分布，求极大似然解
5.3：假设输出服从一般的高斯分布，优化参数和协方差矩阵，直接使用线性回归的结论即可
5.4：包含类标不确定性的交叉熵损失
5.5：最大化分类问题的似然相当于最小化预测分布与真实分布的交叉熵
5.6：二分类交叉熵的梯度
5.7：多分类交叉熵的梯度
5.8：计算 \(\text{tanh}\) 的梯度
5.9：类标取 \(\{-1,1\}\) 时可采用 \(\text{tanh}\)
5.10：对称矩阵正定当且仅当特征值为正
5.11：半正定矩阵确定的二次型的图像为椭球，半径为特征值的算术平方根
5.12：稳定点（梯度为零）为极小值点当且仅当海森矩阵正定，多元微积分经典结论
5.13：二阶泰勒估计的参数量
5.14：用一阶泰勒展开证明有限差分估计导数的误差可以控制在平方级
5.15：交换求导顺序，将求导写成前向形式
5.16：多元输出的海森矩阵的外积估计
5.17：外积估计的合理性，最优解处的海森矩阵等于外积估计
5.18：skip-connection 的梯度
5.19-5.20：分类损失下海森矩阵的外积估计
5.21：海森矩阵逆的增量更新
5.22-5.23：双层感知机海森矩阵的显式计算及带 skip-connection 版本
5.24：对输入做线性变换可等效为对参数做线性变换
5.25：二阶估计的更新动力学
5.26：带切传播（tangent propagation）正则的反向传播
5.27：带白噪声的输入等价于二范数正则
5.28：带共享参数的反向传播
5.29-5.32：以正则项进行软约束的共享参数下的梯度
5.33：机械臂的旋转
5.34-5.36：Mixture Density Network 的参数优化，与 5.29-5.32 类似
5.37：Mixture Density Network 的条件均值和方差
5.38-5.39：贝叶斯神经网络的拉普拉斯估计，参数优化
5.40：多类别贝叶斯神经网络，困难在于二分类的激活函数 \(\sigma\) 可以用 probit 函数近似，积分可以得到闭式解，但是多分类的 softmax 函数暂无有效近似方式，使其积分有闭式解
5.41：贝叶斯神经网络的交叉熵损失

习题详解

Exercise 5.8

Hint.
\(\text{tanh}(x)=1-2\sigma(2x),\sigma(x)'=\sigma(x)(1-\sigma(x))\)，故 \(\text{tanh}'(x)=-4\sigma(2x)(1-\sigma(2x))\)，又因为 \(\sigma(2x)=\frac{\text{tanh}(x)-1}{2}\)，故 \(\text{tanh}'(x)=-4\frac{\text{tanh}(x)-1}{2}\frac{1-\text{tanh}(x)}{2}=1-\text{tanh}^2(x)\)。

Comment.
利用 \(\sigma\) 函数的导数求

Exercise 5.16

Hint.
假设参数 \(\mathbf{w}\) 为一个向量，只需计算单个样本损失函数的海森矩阵。首先 \(\frac{\partial\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}^T}=2(\mathbf{y}-\mathbf{t})^T\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}\)，进一步

\[\begin{aligned} \frac{\partial^2\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}^2} &=\frac{\partial}{\partial \mathbf{w}^T}\frac{\partial\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}}\\ &=\frac{\partial}{\partial \mathbf{w}^T}\left\{2\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\right\}\\ &=2\left\{\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}+((\mathbf{y}-\mathbf{t})^T\otimes I)\frac{\partial}{\partial \mathbf{w}^T}\text{vec}\left(\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\right)\right\} \end{aligned} \]

故

\[\begin{aligned} \frac{\partial^2\frac{1}{2}\sum\|\mathbf{y}-\mathbf{t}\|^2_2}{\partial \mathbf{w}^2} \approx \sum\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T} \end{aligned} \]

Exercise 5.17

Solution.
\(\nabla\mathcal{L}=\frac{1}{2}\underset{x,t}{\mathbb{E}}[\nabla(y-t)^2]=\underset{x,t}{\mathbb{E}}[(y-t)\nabla y]\)，故

\[\begin{aligned} \nabla^2\mathcal{L} &=\underset{x,t}{\mathbb{E}}[\nabla y^T \nabla y]+\underset{x,t}{\mathbb{E}}[(y-t)\nabla^2 y]\\ &=\underset{x}{\mathbb{E}}[\nabla y^T \nabla y]+\underset{x}{\mathbb{E}}\,\underset{t|x}{\mathbb{E}}[(y-t)\nabla^2 y]\\ &=\underset{x}{\mathbb{E}}[\nabla y^T \nabla y] \end{aligned} \]

Comment.
本题的意义在于说明外积估计的合理性，即外积估计等于最优模型下的海森矩阵，但是实际优化过程中很难到达最优模型，其实用性有待检验。

Exercise 5.19

Solution.
由习题 4.13 的结论可知，\(\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}=\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\)，进一步有

\[\begin{aligned} \frac{\partial^2E(\mathbf{w})}{\partial \mathbf{w}^2} &=\frac{\partial}{\partial \mathbf{w}^T}\frac{\partial E(\mathbf{w})}{\partial \mathbf{w}}\\ &=\frac{\partial}{\partial \mathbf{w}^T}\left\{\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\right\}\\ &=\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}+((\mathbf{y}-\mathbf{t})^T\otimes I)\frac{\partial}{\partial \mathbf{w}^T}\text{vec}\left(\frac{\partial\mathbf{a}^T}{\partial \mathbf{w}}\right) \end{aligned} \]

故其外积估计为

\[\begin{aligned} \frac{\partial^2E(\mathbf{w})}{\partial \mathbf{w}^2} \approx \frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\text{diag}(\mathbf{y}\circ(1-\mathbf{y}))\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T} \end{aligned} \]

Comment.

Exercise 5.20

Solution.
假设参数 \(\mathbf{w}\) 为一个向量，只需计算单个样本损失函数的海森矩阵。由习题 4.18 的结论可知，\(\frac{\partial -\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{w}}=\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\)，进一步有

\[\begin{aligned} \frac{\partial^2-\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{w}^2} &=\frac{\partial}{\partial \mathbf{w}^T}\frac{\partial -\ln p(\mathbf{t}|\mathbf{w})}{\partial \mathbf{w}}\\ &=\frac{\partial}{\partial \mathbf{w}^T}\left\{\frac{\partial \mathbf{a}^T}{\partial \mathbf{w}}(\mathbf{y}-\mathbf{t})\right\}\\ &=\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T}+((\mathbf{y}-\mathbf{t})^T\otimes I)\frac{\partial}{\partial \mathbf{w}^T}\text{vec}\left(\frac{\partial\mathbf{a}^T}{\partial \mathbf{w}}\right) \end{aligned} \]

故其外积估计为

\[\begin{aligned} \frac{\partial^2E(\mathbf{w})}{\partial \mathbf{w}^2} \approx \sum\frac{\partial\mathbf{y}^T}{\partial \mathbf{w}}\left(\text{diag}(\mathbf{y})-\mathbf{y}\mathbf{y}^T\right)\frac{\partial\mathbf{y}}{\partial \mathbf{w}^T} \end{aligned} \]

Exercise 5.25

Solution.
\(E=E_0+\frac{1}{2}(w-w^*)^T H(w-w^*),\nabla E=H(w-w^*)\)，故

\[\begin{aligned} w^{\tau} &=w^{\tau-1}-\rho\nabla E\\ &=w^{\tau-1}-\rho H(w-w^*), \end{aligned} \]

记 \(H\) 的特征值分解为 \(H=P^{-1}D P\)，上式两边同时左乘 \(P\)，并记正交基下权重向量的表示为 \(\widetilde{w}^{\tau}=P w^{\tau},\widetilde{w}^*=P w^*\)，则有

\[\widetilde{w}^{\tau}=(I-\rho D)\widetilde{w}^{\tau-1}+\rho D\widetilde{w}^*, \]

移项得

\[\begin{aligned} \widetilde{w}^{\tau}-\widetilde{w}^* &=(I-\rho D)(\widetilde{w}^{\tau-1}-\widetilde{w}^*)\\ &=(I-\rho D)^{\tau}(\widetilde{w}^{0}-\widetilde{w}^*)\\ &=-(I-\rho D)^{\tau}\widetilde{w}^*,\quad(\widetilde{w}^{0}=Pw^0=0) \end{aligned} \]

故 \(\widetilde{w}^{\tau}=(I-(I-\rho D)^{\tau})\widetilde{w}^*\)，因为学习率 \(\rho\) 充分小，故 \(\|I-\rho D\|<1\)，故 \((I-\rho D)^{\tau}\to 0\,(\tau\to\infty)\)，故 \(\widetilde{w}^{\tau}\to\widetilde{w}^*\,(\tau\to\infty)\)。

记 \(D=\text{diag}\{d_j\}\)，则 \(\widetilde{w}^{\tau}_j=(1-(1-\rho d_j)^{\tau})\widetilde{w}^*_j\)。

若 \(d_j\) 充分小，则有估计 \((1-\rho d_j)^{\tau})=1+(-1)^{\tau-1}\tau\rho d_j + o(\rho d_j)\)，故 \(\widetilde{w}^{\tau}_j=((-1)^{\tau-1}\tau\rho d_j + o(\rho d_j))\widetilde{w}^*_j\)，当 \(d_j \ll (\tau\rho)^{-1}\)，有 \(|\widetilde{w}^{\tau}_j|\ll |\widetilde{w}^*_j|\)。
当 \(\tau\) 充分大时，总有 \(d_j \gg (\tau\rho)^{-1}\)，此时 \(\widetilde{w}^{\tau}_j\simeq \widetilde{w}^{*}_j\)。

也就是说，随着迭代次数 \(\tau\) 的增大，\(w^{\tau}\) 非零元的个数渐近增加，即优化过程使得模型需要更多的参数去拟合数据。此时，通过控制学习率和迭代次数可以控制模型的参数量，一定程度上可以理解为“早停”有利于防止过拟合。

Comment.
本题说明，对于使用梯度下降更新的模型，早停有利于减少模型参数量，防止过拟合。

Exercise 5.27

Solution.
原损失函数为

\[E=\frac{1}{2}\underset{\mathbf{x},t}{\mathbb{E}}[(y(\mathbf{x})-t)^2] \]

引入有噪声的输入 \(\mathbf{x}:=\mathbf{s}(\mathbf{x},\xi)\) 后损失函数为

\[\widetilde{E}=\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(y(\mathbf{s}(\mathbf{x},\xi)-t)^2] \]

下面对 \(y\) 做二阶泰勒展开

\[\begin{aligned} y(\mathbf{s}(\mathbf{x},\xi)) &=y(\mathbf{x})+\left(\frac{\partial y}{\partial \xi}|_{\xi=0}\right)^T\xi+\xi^T\left(\frac{\partial^2 y}{\partial \xi^2}|_{\xi=0}\right)\xi+o(\|\xi\|^2), \end{aligned} \]

其中

\[\begin{aligned} \frac{\partial y}{\partial \xi^T}=\frac{\partial y}{\partial \mathbf{s}^T}\frac{\partial \mathbf{s}}{\partial \xi^T}, \end{aligned} \]

不对 \(\frac{\partial^2 y}{\partial \xi^2}\) 进行展开，后面会看到该项将被舍弃。
记 \(\mathbf{a}=\frac{\partial y}{\partial \xi}|_{\xi=0},\mathbf{A}=\frac{\partial^2 y}{\partial \xi^2}|_{\xi=0}\)，则二阶泰勒展开可以进一步化简为

\[\begin{aligned} y(\mathbf{s}(\mathbf{x},\xi)) &=y(\mathbf{x})+\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2), \end{aligned} \]

带噪声的损失函数可以化为

\[\begin{aligned} \widetilde{E} &=\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(y(\mathbf{x})+\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2)-t)^2]\\ &=\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[((y(\mathbf{x})-t)+(\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2))^2]\\ &=\frac{1}{2}\underset{\mathbf{x},t}{\mathbb{E}}[(y(\mathbf{x})-t)^2]\\ &\quad+\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(y(\mathbf{x})-t)(\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2)]\\ &\quad+\frac{1}{2}\underset{\mathbf{x},t,\xi}{\mathbb{E}}[(\mathbf{a}^T\xi+\xi^T\mathbf{A}\xi+o(\|\xi\|^2))^2]\\ &=E+\underset{\mathbf{x},t}{\mathbb{E}}[(y(\mathbf{x})-t)\mathbf{a}^T]\mathbb{E}[\xi]+\underset{\mathbf{x},t}{\mathbb{E}}[y(\mathbf{x})-t]\mathbb{E}[\xi^T\mathbf{A}\xi]+o(\|\xi\|^2)\\ &\quad+\frac{1}{2}\underset{\mathbf{x},\xi}{\mathbb{E}}[(\mathbf{a}^T\xi)^2]+o(\|\xi\|^2)\\ &=E+\frac{1}{2}\underset{\mathbf{x},\xi}{\mathbb{E}}[\mathbf{a}^T\xi\xi^T\mathbf{a}]+o(\|\xi\|^2)\quad(\mathbb{E}[\xi]=0,y=\mathbb{E}[t|\mathbf{x}])\\ &=E+\frac{1}{2}\underset{\mathbf{x}}{\mathbb{E}}[\mathbf{a}^T\mathbb{E}[\xi\xi^T]\mathbf{a}]+o(\|\xi\|^2)\\ &=E+\frac{1}{2}\mathbb{E}[\|\mathbf{a}\|^2_2]+o(\|\xi\|^2)\quad(\mathbb{E}[\xi\xi^T]=\text{Var}[\xi]+\mathbb{E}[\xi]\mathbb{E}[\xi]^T=I)\\ \end{aligned} \]

当 \(\mathbf{s}(\mathbf{x},\xi)=\mathbf{x}+\xi\)，有 \(\frac{\partial \mathbf{s}}{\partial \xi^T}=I\)，故 \(\mathbf{a}=\frac{\partial y}{\partial \mathbf{s}}|_{\xi=0}=\frac{\partial y}{\partial \mathbf{x}}\)，此时有

\[\widetilde{E}=E+\frac{1}{2}\mathbb{E}\left[\left\|\frac{\partial y}{\partial \mathbf{x}}\right\|^2_2\right]+o(\|\xi\|^2) \]

即在输入引入零均值，单位协方差的加性噪声，相当于对神经网络的梯度做了二范数正则。

Comment.

书中公式 5.135 假设 \(\xi\) 是向量，而该公式前的推导假设 \(\xi\) 是标量，因此无法直接从前面推出该结果，需要假定 \(\xi\) 为向量重新做二阶泰勒估计。
如果加性噪声各向同性，即 \(\text{Var}(\xi)=\lambda I\)，则有 \(\widetilde{E}=E+\frac{\lambda}{2}\mathbb{E}\left[\left\|\frac{\partial y}{\partial \mathbf{x}}\right\|^2_2\right]+o(\|\xi\|^2)\)，即标准差的大小对应正则项系数。
假设 \(y=\mathbf{w}^T\mathbf{x}\) 是线性模型，则 \(\frac{\partial y}{\partial \mathbf{x}}=\mathbf{w}\)，相当于对参数做二范数正则，对应输入有噪声的线性回归。与习题 3.4 的结论对应。

Exercise 5.29

Hint.
习题 5.29-5.32 均是假设每个参数独立服从混合高斯分布的前提下，求梯度进行优化。由于单个高斯具有指数形式，所以求导后产生了系数项 \(\gamma\)。单个参数 \(w_i\) 的损失函数为

\[\begin{aligned} \widetilde{E}(w_i) &=E(w_i)+\lambda \Omega(w_i)\\ &=E(w_i)-\lambda \ln \left(\sum\pi_j \mathcal{N}(w_i|\mu_j,\sigma^2_j)\right) \end{aligned} \]

对 \(w_i\) 求偏导有

\[\begin{aligned} \frac{\partial \widetilde{E}(w_i)}{\partial w_i} &=\frac{\partial E(w_i)}{\partial w_i}-\lambda\sum\frac{\pi_j}{\sum\pi_k \mathcal{N}(w_i|\mu_k,\sigma^2_k)}\frac{\partial \mathcal{N}(w_i|\mu_j,\sigma^2_j)}{\partial w_i}\\ &=\frac{\partial E(w_i)}{\partial w_i}+\lambda\sum\frac{\pi_j\mathcal{N}(w_i|\mu_j,\sigma^2_j)}{\sum\pi_k \mathcal{N}(w_i|\mu_k,\sigma^2_k)}\frac{w_i-\mu_j}{\sigma_j^2}\\ &=\frac{\partial E(w_i)}{\partial w_i}+\lambda\sum\gamma_j(w_i)\frac{w_i-\mu_j}{\sigma_j^2}\quad\left(\gamma_j(w_i)=\frac{\pi_j\mathcal{N}(w_i|\mu_j,\sigma^2_j)}{\sum\pi_k \mathcal{N}(w_i|\mu_k,\sigma^2_k)}\right). \end{aligned} \]

Exercise 5.32

Hint.
本题中，先验概率 \(\pi\) 无法通过拉格朗日乘子法给出闭式解，所以对 \(\pi\) 做重参数化 \(\pi=\text{softmax}(\eta)\)，用梯度下降法求解。

Solution.

\[\begin{aligned} \frac{\partial \widetilde{E}}{\partial \eta^T} &=-\sum\frac{\partial \widetilde{E}(w_i)}{\partial \pi^T}\frac{\partial \pi}{\partial \eta^T}\\ &=-\lambda\sum\left(\frac{\gamma(w_i)}{\pi}\right)^T\left(\text{diag}(\pi)-\pi\pi^T\right)\\ &=\lambda\sum(\pi-\gamma(w_i))^T \end{aligned} \]

Exercise 5.37

Hint.
分解混合密度函数，先求单个分支的方差，再按分支的概率加权，即将原期望分解为条件期望进行计算。

Solution.
条件期望为

\[\begin{aligned} \mathbb{E}\left[\mathbf{t}|\mathbf{x}\right] &=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\mathbf{t}|\mathbf{x}\right]\\ &=\underset{\pi}{\mathbb{E}}\left[\mu(\mathbf{x})|\pi\right]\\ &=\sum \pi_k\mu_k(\mathbf{x}) \end{aligned} \]

条件方差为

\[\begin{aligned} \mathbb{E}\left[\|\mathbf{t}-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2_2|\mathbf{x}\right] &=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\|\mathbf{t}-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2_2|\mathbf{x}\right]\\ &=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\left\|\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]+\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right\|^2_2|\mathbf{x}\right]\\ &=\underset{\pi}{\mathbb{E}}\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\left\|\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\right\|^2_2+\left\|\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right\|^2_2-2\left(\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\right)^T\left(\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right)|\mathbf{x}\right]\\ &=\underset{\pi}{\mathbb{E}}\left[\underset{\mathbf{t}|\pi}{\mathbb{E}}\left[\left\|\mathbf{t}-\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\right\|^2_2|\mathbf{x}\right]+\left\|\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]-\mathbb{E}[\mathbf{t}|\mathbf{x}]\right\|^2_2\right]\\ &=\underset{\pi}{\mathbb{E}}\left[\sigma^2(\mathbf{x})|\pi+\left\|\mu(\mathbf{x})|\pi-\sum\pi_l\mu_l(\mathbf{x})\right\|^2_2\right]\\ &=\sum\pi_k \left(\sigma_k^2(\mathbf{x})+\left\|\mu_k(\mathbf{x})-\sum\pi_l\mu_l(\mathbf{x})\right\|^2_2 \right) \end{aligned} \]

Comment.
为计算条件方差，中间引入了辅助项 \(\underset{\mathbf{t}|\pi}{\mathbb{E}}[\mathbf{t}|\mathbf{x}]\)，技巧与方差的计算一致。

Exercise 5.38

Hint.
把神经网络 \(y(\mathbf{x},\mathbf{w})\) 在 \(\mathbf{w}=\mathbf{w}_{\text{MAP}}\) 做一阶泰勒展开，得到线性估计，利用高斯线性模型的结论计算预测分布。

Solution.
对 \(y\) 做一阶展开有

\[y(\mathbf{x},\mathbf{w})\simeq y(\mathbf{x},\mathbf{w}_{\text{MAP}})+\mathbf{g}^T(\mathbf{w}-\mathbf{w}_{\text{MAP}})=\mathbf{g}^T\mathbf{w}+y(\mathbf{x},\mathbf{w}_{\text{MAP}})-\mathbf{g}^T\mathbf{w}_{\text{MAP}} \]

由此得到以下高斯线性模型近似

\[p(t|\mathbf{x},\mathbf{w},\beta)\simeq \mathcal{N}(t|\mathbf{g}^T\mathbf{w}+y(\mathbf{x},\mathbf{w}_{\text{MAP}})-\mathbf{g}^T\mathbf{w}_{\text{MAP}},\beta^{-1}) \]

注意到

\[q(\mathbf{w}|\mathcal{D})=\mathcal{N}(\mathbf{w}|\mathbf{w}_{\text{MAP}},\mathbf{A}^{-1}) \]

由高斯线性模型的结论有

\[\begin{aligned} p(t|\mathbf{x},\mathcal{D},\beta) &\simeq \mathcal{N}(t|\mathbf{g}^T\mathbf{w}_{\text{MAP}}+y(\mathbf{x},\mathbf{w}_{\text{MAP}})-\mathbf{g}^T\mathbf{w}_{\text{MAP}},\beta^{-1}+\mathbf{g}^T\mathbf{A}^{-1}\mathbf{g})\\ &= \mathcal{N}(t|y(\mathbf{x},\mathbf{w}_{\text{MAP}}),\beta^{-1}+\mathbf{g}^T\mathbf{A}^{-1}\mathbf{g})\\ \end{aligned} \]

Comment.
严谨的推导应包含高阶项，但是对应的高斯线性模型应该如何处理并不清楚，这里仅按照书中的推导，直接做近似替换。

posted @ 2021-03-25 16:55 Rotopia 阅读(603) 评论(0) 收藏举报

刷新页面返回顶部

Rotopia