多元高斯分布/高斯过程全解析
大纲
- 公式推导
- 参数估计
- 高斯分布运算
- 高斯分布性质
- 高斯过程(Gaussian process)
- 高斯混合模型
概念区分
- 边缘分布(marginal distribution)和联合分布
- 概率密度函数和概率分布函数
1. 多元高斯分布公式推导
首先我们知道一元高斯分布是:\(N(x|u,\sigma^2)=\frac{1}{\sqrt{2\pi \sigma^2}}exp[-\frac{1}{2\sigma^2}(x-u)^2]\), 拓展到高维时:
其中,\(\overline x\) 表示维度为 D 的向量,\(\overline u\) 则是这些向量的平均值,\(\Sigma\) 表示所有向量 \(\overline x\) 的协方差矩阵。
现在进行推导。为了简单起见,假设所有变量都是相互独立的,即对于概率分布函数 \(f(x_0,x_1,…,x_n)=f(x_0)f(x_1)...f(x_n)\) 成立。
假设有很多变量 \(\overline x=\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}\),它们的均值为 \(\overline u=\begin{bmatrix} u_1 \\ u_2 \end{bmatrix}\),方差为 \(\overline \sigma=\begin{bmatrix} \sigma_1 \\ \sigma_2 \end{bmatrix}\)。
由于 \(x_1\),\(x_2\) 是相互独立的,所以,\(\overline x\) 的高斯分布函数可以表示为:
接下来,为了推出文章开篇的高维公式,我们要想办法得到协方差矩阵 \(\Sigma\)。
对于二维的向量 \(\overline x\) 而言,其协方差矩阵为:
协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。简单来讲,协方差就是衡量两个变量相关性的变量。当协方差为正时,两个变量呈正相关关系(同增同减);当协方差为负时,两个变量呈负相关关系(一增一减)。 而协方差矩阵,只是将所有变量的协方差关系用矩阵的形式表现出来而已。通过矩阵这一工具,可以更方便地进行数学运算。协方差公式为:
\[Cov(X,Y)=E(X,Y)-E(X)E(Y)=\frac{\sum_{i=1}^n{(x_i-\overline x)(y_i-\overline y)}}{n-1}$$ 这里的 $X$,$Y$表示两个变量空间。用机器学习的话讲,就是样本有 $x$ 和 $y$ 两种特征,而 $X$ 就是包含所有样本的 $x$ 特征的集合,$Y$就是包含所有样本的 $y$ 特征的集合。$\overline x$ 和 $\overline y$ 是 $X$,$Y$ 两个特征空间的平均值。 那么假如 $Z$ 是包含$X$和$Y$的矩阵,那么计算协方差矩阵时,$$Cov(Z)=\mathrm{E}\left[ (X - \mathrm{E}[X]) (Y - \mathrm{E}[Y])^\top\right]=\begin{bmatrix} Cov(X,X) & Cov(X,Y) \\ Cov(Y,X) & Cov(Y,Y) \end{bmatrix}\]这样矩阵中之中每个元素 \(\Sigma_{ij}=\frac{(样本矩阵第i列-第i列均值)^T(样本矩阵第j列-第j列均值)}{样本数-1}\)
当\(X\), \(Y\)两个变量独立时,\(Cov(X,Y)\)为0:\[\begin{aligned} E(XY) & = \sum_x \sum_y {x \times y \times p(x,y)} \notag \\ & = \sum_x \sum_y x \times y \times p_x(x) \times p_y(y) \notag \\ & = \sum_x{x \times p_x(x)}\sum_y{y \times p_y(y)} \notag \\ & = E(X)E(Y) \notag \end{aligned}\]
由于 \(x_1\),\(x_2\) 是相互独立的,所以 \(\sigma_{12}=\sigma_{21}=0\)。这样,\(\Sigma\) 退化成 \(\begin{bmatrix} \sigma_1^2 & 0 \\ 0 & \sigma_{2}^2 \end{bmatrix}\)。
则 \(\Sigma\) 的行列式 \(|\Sigma|=\sigma_1^2 \sigma_2^2\),代入公式 (4) 就可以得到:
这样一来,我们已经推出了公式的左半部分,下面,开始处理右面的 exp 函数。
原始的高维高斯函数的 exp 函数为:\(exp[-\frac{1}{2}(\overline x-\overline u)^T\Sigma^{-1}(\overline x-\overline u)]\),根据前面算出来的 \(\Sigma\),我们可以求出它的逆:\(\Sigma^{-1}=\frac{1}{\sigma_1^2 \sigma_2^2} \begin{bmatrix} \sigma_2^2 & 0 \\ 0 & \sigma_1^2 \end{bmatrix}\)。
接下来根据这个二维的例子,将原始的 exp() 展开:
展开到最后,发现推出了原公式。说明原公式 \(N(\overline x | \overline u, \Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp[-\frac{1}{2}(\overline x-\overline u)^T\Sigma^{-1}(\overline x-\overline u)]\)是成立的。
2. 参数估计
如果给定了很多数据点,并且知道它们服从某个高斯分布,我们要求高斯分布的参数(\(μ\) 和 \(Σ\)),估计模型参数的方法有很多,最常用的就是极大似然估计(MLE)。对于一维的高斯模型假如有m个数据点,则似然函数:
取对数后求导,令导数为 0 得到似然方程。
得到 \(\tilde \mu=\frac{1}{m}\sum_{i=1}^m{x_i}\),\(\sigma=\sqrt{\frac{1}{m}\sum_{i=1}^m{(x_i-\tilde \mu)^2}}\)
多维高斯分布时,假如有 \(m\) 个 \(p\) 维向量 \(x\),参数估计为:
在计算样本协方差矩阵时,我们要使用无偏估计,即将分母由 \(m\) 改为 \((m-1)\)。
3. 高斯分布运算
3.1 一元高斯分布相乘
假设\(p(x_1)=\mathcal{N}(x\vert \mu_1,\sigma_1), \, p(x_2)=\mathcal{N}(x\vert \mu_2,\sigma_2)\)均是关于变量
\(x\)的分布,得两个高斯分布相乘仍为缩放的高斯分布:
则高斯分布的参数:
上式可写为如下形式,从而推广至\(n\)个一维高斯分布相乘:
新函数等价于正态分布 \(N(\mu,\sigma^2)\) 的概率密度函数乘以缩放因子 \(A\) 。其中,缩放因子\(A=\frac{e^{-\frac{\left(\mu_1-\mu_2\right)^2}{2(\sigma_1^2+\sigma_2^2)}}}{\sqrt{2\pi\left( \sigma_1^2+\sigma_2^2\right)}}\)
3.2 多元高斯分布相乘
3.3 高斯分布相加
两个高斯分布函数直接相加,很明显不是一个高斯函数。如果两个满足高斯分布的随机变量相加,那么他们的和还是一个高斯分布。具体的,如果 \(X\sim N(\mu _{X},\sigma _{X}^{2})\), \(Y\sim N(\mu _{Y},\sigma _{Y}^{2})\),\(Z=X+Y\) 那么 $$ Z\sim N(\mu _{X}+\mu _{Y},\sigma _{X}^{2}+\sigma _{Y}^{2})$$
需要用到卷积运算:\(\displaystyle (f*g)(n)=\int_{-\infty}^{\infty}f(\tau)g(n-\tau)d\tau\)
所以,Z的概率密度函数为:
当\(X,Y\)为独立随机变量时,\(Z\)的概率密度为\({\displaystyle f_{Z}(z)=\int _{-\infty }^{\infty }f_{Y}(z-x)f_{X}(x)\,dx}\)
法二:使用特征函数证明
高斯分布的特征函数为:
所以,
3.4 高斯线性模型
\[\begin{cases} P(x)=N(x|\mu,\Lambda^{-1})\\ P(y|x)=N(y|Ax+b,L^{-1}) \end{cases} \longrightarrow P(y)=N(y|A\mu+b,L^{-1}+A\Lambda^{-1}A^T) \\ \downarrow\\ P(x|y)=N(x|\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)(y-A\mu-b),\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1}) \]
高斯线性系统推导如下:
\(y\) 由 \(\mathbf{x}\) 产生,在观测到 \(y\) 后可以对 \(\mathbf{x}\) 进行更新(update): \(p(x\vert y) = \mathcal{N}(\mu_{x\vert y},\Sigma_{x\vert y})\),没观测到 \(y\) 可以对其预测(predict)\(P(y)\)
下面对\(\mu_{x\vert y},\Sigma_{x\vert y}\)进行计算。已知\(p(x,y)=p(y\vert x)p(x)\),\(p(y\vert x)p(x)\)的指数部分为:
通过配方可以得到:
下面对 \(p(y)\) 进行求解,我们知道 \(p(y)=\int p(y\vert x)p(x) dx \text{,}p(x)p(y\vert x)=p(y)p(x\vert y)\) 通过上述的式子,如果对上式求积分或者配方会有些复杂。实际上,通过上式可以得到 \(p(x,y)\) 逆协方差矩阵:
利用联合高斯分布的推断结论,可以得到:
可以推知:\(\mu_y=A\mu_0+b\), 再对\(\Sigma_y'\)(这里\(\Sigma_y'\)表示\(p(y)\)的协方差矩阵)进行计算:
因此 \(\Sigma_y'=\Sigma_y+A\Sigma_0 A^T\),\(p(y)\) 的分布参数如下:
4. 高斯分布性质
多元正态分布有4种等价的定义。
定义1--由标准正态随机向量线性组合得到
设 \(U=\left(U_{1}, U_{2}, \cdots, U_{q}\right)^{\prime}\) 为随机向量, \(U_{1}, \cdots, U_{q}\) 独立服从标准正态。设 \(\mu\) 为 \(p\) 维常数向量, \(A\) 为 \(p \times q\) 维常数矩阵,则称 \(X=A U+\mu\) 的分布为 \(p\) 元正态分布,或称 \(X\) 为 \(p\) 维正态随机向量,记作 \(X \sim N_{p}\left(\mu, A A^{\prime}\right)\)
性质1--特征函数
在概率论中,任何随机变量的特征函数(ch.f)完全定义了它的概率分布。在实直线上,它由以下公式给出,其中X是任何具有该分布的随机变量: \(\varphi _ X(t) = E[e^{itX}]\)
\[\begin{aligned} \varphi_X(t) &= E[e^{itX}]\\ &\overbrace{=}^{\text{泰勒展开}} E(1 + \frac{it X}{1} - \frac{t^2 X^2}{2!} + \cdots + \frac{(it)^n X^n}{n!})\\ &= E(1) + E(\frac{it X}{1}) - E(\frac{t^2 X^2}{2!}) + \cdots + E(\frac{(it)^n X^n}{n!})\\ &= 1 + \frac{it \overbrace{E[X]}^{\text{一阶矩}}}{1} - \frac{t^2 \overbrace{E[X^2]}^{\text{二阶矩}}}{2!} + \cdots + \frac{(it)^n \overbrace{E[X^n]}^{\text{n阶矩}}}{n!}) \end{aligned} \]\(k\)阶原点矩: \(E[X^k] \ 或 \ A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k,\quad k=1,2,\cdots\)
\(k\)阶中心矩: \(E[(X-E(X))^k] \ 或 \ A_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^k,\quad k=2,3,\cdots\)可见特征函数包含了分布函数的所有矩(moment),也就是包含了分布函数的所有特征。
所以,特征函数其实是随机变量 \(X\) 的分布的另外一种描述方式。
假设某连续随机变量 \(X\)的概率密度函数为 \(f(x)\),那么可知:\(E(X)=\int _{-\infty }^{+\infty }xf(x)dx\),特征函数为:\[\begin{aligned} \varphi _ X(t) = E[e^{itX}] = \int _{-\infty }^{+\infty }e^{itx}f(x)dx \end{aligned} \]特征函数把分布函数换到另外一个坐标系,也可以获得一些计算的好处:
- 假如我们不知道分布函数,但是通过实验算出了期望、方差、偏度、峰度等,那么可以用特征函数去代替分布函数
- 两个分布函数的卷积 \(f*g\) 通过特征函数更换坐标系后,可以变为更容易计算的乘法:\(\varphi (f*g)=\varphi (f)\varphi (g)\)
- 通过对 \(t\) 求导,可以简单求出各阶矩:\(\varphi _{X}^{(k)}(0)=i^{k}E[X^{k}]\)
由定义1得到的随机向量 \(X\) 的特征函数为
其中 \(t=\left(t_{1}, \cdots, t_{p}\right)^{\prime} \in \mathbb{R}^{p}\)
证明:首先考虑一维标准正态分布的特征函数为 \(\Phi_{U_{i}}\left(t_{i}\right)=\exp \left[-\frac{1}{2} t_{i}^{2}\right]\)
根据独立性有
进而根据 X 的定义得到
其中 \(E[\exp \left\{i\left(A^{\prime} t\right)^{\prime} U\right\}]\) 即 \(\Phi_{U}(A^{\prime}t)\) ,代入即得结论.
定义2--由特征函数定义
如果随机向量 X 的特征函数具有如下形式 \(\Phi_{X}(t)=\exp \left[i t^{\prime} \mu-\frac{1}{2} t^{\prime} \Sigma t\right]\), 则称 \(X\) 服从 \(p\) 维正态分布,记作 \(X \sim N_{p}(\mu, \Sigma)\)
性质2--正态随机向量任意线性变换仍服从正态分布
设 \(X \sim N_{p}(\mu, \Sigma)\),令 \(Z=B X+d\) ,则 \(Z \sim N_{s}\left(B \mu+d, B \Sigma B^{\prime}\right)\) ,其中 \(B\) 为 \(s \times q\) 维矩阵,\(d\) 为 \(s\) 维向量.
推论--子向量的均值与协方差:
设 \(X=\left[\begin{array}{c} X^{(1)} \\ X^{(2)} \end{array}\right] \quad \begin{array}{c} r \\ p-r \end{array} \sim N_{p}(\mu, \Sigma)\) ,将 \(\mu\), \(\Sigma\) 分为
则有 \(X^{(1)} \sim N_{r}\left(\mu^{(1)}, \Sigma_{11}\right), X^{(2)} \sim N_{p-r}\left(\mu^{(2)}, \Sigma_{22}\right)\)
注意: \(\Sigma_{12} \neq \Sigma_{21}\) ,两者互为转置
性质3--多元正态 \(\Leftrightarrow\) 任意线性组合为一元正态
设 \(X=\left(X_{1}, X_{2}, \cdots, X_{p}\right)^{\prime}\) 为 \(p\) 维随机向量,则 \(X\) 服从 \(p\) 元正态分布等价于对任意 \(p\) 维实向量, \(\xi=a^{\prime} X\) 是一维正态随机变量.
证明:
当 X 为 p 元正态分布,由性质2知 \(\xi\) 为一维正态随机变量。
反之,如果对任意 \(a\) 有\(\xi=a^{\prime} X\) 为一维正态随机变量,则 \(\xi\) 各阶矩存在,进而 \(X\) 的均值和协方差存在,分别设为 \(\mu,\Sigma\) ,则
进而考察 X 的特征函数得到
刚好等于多元正态的特征函数,由特征函数与分布的一一对应得到结论.
定义3--任意线性组合为正态
如果 \(p\) 维随机向量 \(X\) 的任意线性组合均服从一元正态分布,则称 \(X\) 为 \(p\) 维正态随机向量.
性质4--联合密度函数
如果 \(X \sim N_{p}(\mu, \Sigma)\) 且 \(\Sigma>0\) ,则 \(X\) 的联合密度函数为
定义4--密度函数
如果 \(p\) 维随机向量 \(X\) 的联合密度函数为
则称 \(X\) 为 \(p\) 维正态随机向量.
注意:定义4要求 \(\Sigma>0\) ,其他三个只要求 \(\Sigma \geq0\) ,一般也不考虑 \(X\) 为退化随机向量的情况.
5. 高斯条件分布和独立性
仅讨论 \(\Sigma \geq0\) (即半正定) 的情形
定理1--正态随机向量的独立性等价于协方差为0矩阵
定理2--条件分布
设 \(X=\left[\begin{array}{c}X^{(1)} \\ X^{(2)}\end{array}\right] \begin{array}{c}r \\ p-r\end{array} \sim N_{p}(\mu, \Sigma)(\Sigma>0)\) ,则当 \(X^{(2)}=x^{(2)}\) 给定时, \(X^{(1)}\) 的条件分布为
其中
证明:从回归的角度会比较容易理解,理论依据是,在均方意义下,线性回归的结果就是条件期望。将 X 中心化后做回归
那么 \(\beta^{\prime}\left(x^{(2)}-\mu^{(2)}\right)\) 就是 \(X^{(1)}-\mu^{(1)}\) 的条件期望。现在假设对于每个变量,都有 \(n\) 个观测数据,并将回归形式改写为 \(Z_t=\beta^{\prime}R_t+\varepsilon\) ,那么利用最小二乘估计可以得到参数的估计量为 \(\beta=\left(R^{\prime} R\right)^{-1} R^{\prime} Z\) 。考虑当 \(n\) 充分大的情况下, \(\left(R^{\prime} R\right)^{-1}\) 对应了 \(\Sigma_{22}^{-1} , R^{\prime} Z\) 对应了 \(\Sigma_{21}\) 进而对 \(\beta\) 求转置后得到
因此条件期望就是
下面考虑条件方差的计算。做回归后得到的误差项 \(\varepsilon\) 是从 \(X^{(1)}\) 中剔除了 \(X^{(2)}\) 对其的影响,那么条件方差就应该等于误差项的方差,即
由此可以自然地得到下面的推论:
\(X^{(2)} 与 X^{(1)}-\Sigma_{12} \Sigma_{22}^{-1} X^{(2)}\) 相互独立
\(X^{(1)} 与 X^{(2)}-\Sigma_{21} \Sigma_{11}^{-1} X^{(1)}\) 相互独立
\(X^{(2)} \mid X^{(1)} \sim N_{p-r}\left(\mu_{2 \cdot 1}, \Sigma_{2 \cdot 1}\right)\), 其中
问:如果是三个子向量,给定其中两个,求另一个的条件分布呢?
答:把给定的两个看做一个子向量就可以。
条件数字特征
就是刚刚推导的东西的定义
(1)条件期望(Conditional Expectation),回归系数(regression coefficient),偏相关系数(Partial correlation coefficient)
设$$X=\left[\begin{array}{c} X^{(1)} \ X^{(2)} \end{array}\right] \sim N_{p}\left(\left[\begin{array}{c} \mu^{(1)} \ \mu^{(2)} \end{array}\right],\left[\begin{array}{cc} \Sigma_{11} & \Sigma_{12} \ \Sigma_{21} & \Sigma_{22} \end{array}\right]\right)$$
根据定理2有 \(\left(X^{(1)} \mid X^{(2)}=x^{(2)}\right) \sim N_{r}\left(\mu_{1 \cdot 2}, \Sigma_{1 \cdot 2}\right)\),我们把
称为条件期望(Conditional Expectation),记作 \(\mathrm{E}\left(X^{(1)} \mid X^{(2)}=x^{(2)}\right)\) ;把 \(\Sigma_{12} \Sigma_{22}^{-1} \stackrel{\text {def}}{=} B\) 称为回归系数.
区分 \(\mathrm{E}(X) 、 \mathrm{E}(X \mid Y) 、 \mathrm{E}(X \mid Y=y)\):
\(\mathrm{E}(X)\):一个数
\(\mathrm{E}(X \mid Y)\) :随机变量,关于 Y 的函数,没有固定的 y 值
\(\mathrm{E}(X \mid Y=y)\) : y 的函数 f(y) ,对于给定的 y ,有唯一确定值与之对应
全期望公式(Law of total expectation)
设 \(X,Y\) 为离散型随机变量,下列期望和条件期望均存在,则\[\mathrm{E}(X) = \mathrm{E}(\mathrm{E}(X \mid Y)) \]若 \(Y\) 为连续型随机变量,则
\[\begin{aligned} \mathrm{E}(X) &= \mathrm{E}(\mathrm{E}(X \mid Y)) \\ &= \int_{-\infty}^{+\infty} \mathrm{E}(X \mid Y=y) \ dF_Y(y) \end{aligned}\]若 Y 为离散型随机变量,则
\[\begin{aligned} \mathrm{E}(X) &= \mathrm{E}(\mathrm{E}(X \mid Y)) \\ &= \sum_y \mathrm{E}(X \mid Y=y) \cdot \mathrm{P}(Y=y) \end{aligned}\]离散型的证明如下:
\[\begin{aligned} \mathrm{E}(\mathrm{E}(X \mid Y)) &=\sum_{y} \mathrm{E}(X \mid Y=y) \cdot \mathrm{P}(Y=y) \\ &=\sum_{y}\left(\sum_{x} x \cdot \mathrm{P}(X=x \mid Y=y)\right) \cdot \mathrm{P}(Y=y) \\ &=\sum_{y} \sum_{x} x \cdot \mathrm{P}(X=x \mid Y=y) \cdot \mathrm{P}(Y=y) \\ &=\sum_{y} \sum_{x} x \cdot \mathrm{P}(Y=y \mid X=x) \cdot \mathrm{P}(X=x) \\ &=\sum_{x} \sum_{y} x \cdot \mathrm{P}(Y=y \mid X=x) \cdot \mathrm{P}(X=x) \\ &=\sum_{x} x \cdot \mathrm{P}(X=x) \cdot\left(\sum_{y} \mathrm{P}(Y=y \mid X=x)\right) \\ &=\sum_{x} x \cdot \mathrm{P}(X=x) \\ &=\mathrm{E}(X) \end{aligned}\]一个特殊情况:若 \(\{A_i\}_i\) 是一个样本空间的有限集或可列集,则
\[\mathrm{E}(X) =\mathrm{E}(\mathrm{E}(X \mid Y)) =\sum_{i} \mathrm{E}(X \mid A_i) \cdot \mathrm{P}(A_i)\]
为了定义偏回归系数,将条件方差矩阵的元素具体表示为
称$$\rho_{i j \cdot r+1, \cdots, p}=\frac{\sigma_{i j }}{\sqrt{\sigma_{i i }} \sqrt{\sigma_{j j }}}$$ 为偏相关系数,即为 \(X^{(2)}=\left(X_{r+1}, \cdots, X_{p}\right)^{\prime}\) 给定的条件下, \(X_{i},X_{j}\) 的相关系数.
(2)全相关系数(了解)
设 \(Z=\left[\begin{array}{l} X \\ Y \end{array}\right] \begin{array}{l} p \\ 1 \end{array} \sim N_{p+1}\left(\left[\begin{array}{c} \mu_{X} \\ \mu_{y} \end{array}\right],\left[\begin{array}{cc} \Sigma_{X X} & \Sigma_{X y} \\ \Sigma_{y X} & \sigma_{y y} \end{array}\right]\right)\),则称
为 \(Y\) 与 \(X=\left(X_{1}, \cdots, X_{p}\right)^{\prime}\) 的全相关系数.
(3)最佳预测
记 \(X^{(1)}=Y, g\left(x^{(2)}\right)=E\left(Y \mid X^{(2)}=x^{(2)}\right)\) ,则对任意函数 \(\phi(\cdot)\) ,可以证明
也就是在均方准则下,条件期望是最优预测,证明方法就是加一项减一项,往证交叉项为0.
5.2 高斯边缘分布
如果联合分布 \(p(x_a,x_b)\) 是高斯分布,那么条件概率分布 \(p(x_a|x_b)\) 也是高斯分布,那么边缘概率分布 \(p(x_a)=\int_{}^{}p(x_a,x_b)\ dx_b\) 显然也是一个高斯分布。
我们主要研究联合分布的指数项二次型,这次考虑涉及到 \(x_b\) 的项,结合条件高斯分布中对 \(z^2=z^Tz=(x-\mu_x)^T\Sigma^{-1}(x-\mu_x)\) 几何形式关于 \(x_a,x_b\) 的分解公式,可以得到:
其中 \(m=\Lambda_{bb}\mu_b-\Lambda_{ba}(x_a-\mu_a)\),\(\Lambda\equiv\Sigma^{-1}\), \(\Lambda\)为协方差矩阵的逆矩阵,又称为精度矩阵。
上式中与 \(x_b\) 相关的项转化为一个高斯分布的标准二次型,结合边缘概率公式需要积分:
上面只提出了关于 \(x_b\) 的二项式,其最后一项 \(\frac{1}{2}m^T\Lambda_{bb}^{-1}m\) 为和 \(x_b\) 无关但和 \(x_a\) 有关的项,结合前文提到的,除 \(x_b\) 二次项以外的并和 \(x_a\) 有关的项结合,得到:
\(b\) 为常数,是与 \(x_a\) 无关的量,那么可以得到边缘概率的协方差矩阵:
\(\Sigma_{a}=(\Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})^{-1}\)
均值为: \(\mu_a=\Sigma_a(\Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})\mu_a\)
前文介绍过分块矩阵逆矩阵的恒等式,那么可以得出:
\(\Sigma_{aa}=(\Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})^{-1}\)
最后可以得出边缘概率 \(p (x_a)\) 的均值和协方差:
\(E\left[ x_a \right]=\mu_a , cov\left[ x_a \right]=\Sigma_{aa}\)
边缘概率分布:
\(p(x_a)=\mathcal N(x_a|\mu_a,\Sigma_{aa})\)
5.3 混合高斯分布
通过将更基本的概率分布(高斯分布)进行线性组合叠加,然后形式化为概率模型,被称为混合模型。高斯分布的线性组合可以给出相当复杂的概率密度形式。通过使用足够多的高斯分布,并且调节它们的均值和方差以及线性组合的系数、几乎所有的连续概率密度能够以任意的精度近似。考虑 \(K\) 个高斯概率密度的叠加,形式为:
\(p(x)=\sum_{k=1}^{K}\pi_k\ \mathcal N(x|\mu_k,\Sigma_k)\)
称为混合高斯分布,每个高斯概率密度 \(\mathcal N(x|\mu_k,\Sigma_k)\) 被称为混个高斯分布的一个成分,并且有自己的均值和协方差 \(\mu_k,\Sigma_k\) 。 \(\pi_k\) 被称为混合系数,可以得到: \(\sum_{k=1}^{K}\pi_k=1\) 。
根据概率的加和规则和乘积规则,边缘概率密度为: \(p(x)=\sum_{k=1}^{K}p(k)p(x|k)\)
这和上面的混合高斯分布公式是等价的,把 \(\pi_k=p(k)\) 看成第\(k\)个成分的先验概率,把密度 \(\mathcal N(x|\mu_k,\Sigma_k)=p(x|k)\) 看成以\(k\)为条件的\(x\)的概率。
后验概率 $$p(k|x)=\frac{p(k)p(x|k)}{\Sigma_lp(l)p(x|l)}=\frac{\pi_k\mathcal N(x|\mu_k,\Sigma_k)}{\Sigma_l\pi_l\mathcal N(x|\mu_l,\Sigma_l)}$$
令 \(\pi\equiv\{\pi_1,...,\pi_K\},\mu\equiv\{\mu_1,...,\mu_K\},\Sigma\equiv\{\Sigma_1,...,\Sigma_K\}\) ,对数似然函数为:
因为该对数似然函数中对数里含有求和式,不能像一元高斯分布那样可以求得封闭的解析解,可以通过迭代数值优化方法以及期望最大化方法来求解。
6. 高斯过程
6.1 简介
高斯过程(Gaussian process, GP) 是一个概率统计学上的概念,更确切的说应该是随机过程(Stochastic process)中一个特殊例子。
在高斯过程中,连续输入空间中每个点都是与一个正态分布的随机变量相关联。此外,这些随机变量的每个有限集合都有一个多元正态分布。高斯过程的分布是所有那些(无限多个)随机变量的联合分布,正因如此,它是连续域(例如时间或空间)的分布。
【定义】 对于一个连续域 \(T\) (假设他是一个时间轴),如果我们在连续域上任选 \(n\) 个时刻: \(t_1,t_2,t_3,...,t_n\in T\) ,使得获得的一个 \(n\) 维向量 \(\{\xi_1,\xi_2,\xi_3,...,\xi_n\}\) 都满足其是一个 \(n\) 维高斯分布,那么这个 \(\{\xi_t\}\) 就是一个高斯过程。
GP可以被mean和covariance function共同唯一决定其表达式,具体的,\(\xi_t\sim GP(m(t),k(t,s))\)。因为我们知道一个高斯分布可以被mean和variance共同唯一决定,一个多元高斯分布可以对mean vector和covariance matrix共同唯一决定。mean需要描述每一个时间点 t 上的均值,但是这个时候就不能用向量了,因为是在连续域上的,维数是无限的,因此就应该定义成一个关于时刻 t 的函数: m(t) 。covariance function被称为核函数kernel,原因就是它捕捉了不同输入点之间的关系,并且反映在了之后样本的位置上。这样的话,就可以做到,利用点与点之间关系,以从输入的训练数据预测未知点的值。比如径向基函数 RBF:
这里 \(\sigma\) 和 \(l\) 是径向基函数的超参数。\(s\) 和 \(t\) 表示高斯过程连续域上的两个不同的时间点, \(||s-t||^2\) 是一个二范式,简单点说就是 \(s\) 和 \(t\) 之间的距离,径向基函数输出的是一个标量,他代表的就是 \(s\) 和 \(t\) 两个时间点各自所代表的高斯分布之间的协方差值,很明显径向基函数是一个关于 \(s\),\(t\) 距离负相关的函数,两个点距离越大,两个分布之间的协方差值越小,即相关性越小,反之越靠近的两个时间点对应的分布其协方差值就越大。
import numpy as np
def gaussian_kernel(x1, x2, l=1.0, sigma_f=1.0):
m, n = x1.shape[0], x2.shape[0]
dist_matrix = np.zeros((m, n), dtype=float)
for i in range(m):
for j in range(n):
dist_matrix[i][j] = np.sum((x1[i] - x2[j]) ** 2)
return sigma_f ** 2 * np.exp(- 0.5 / l ** 2 * dist_matrix)
train_X = np.array([1, 3, 7, 9]).reshape(-1, 1)#转换为4*1矩阵形式
print(gaussian_kernel(train_X, train_X)) #4*4矩阵,当 i=j 时,就是自身的方差
6.2 高斯过程回归
我们知道,高斯分布有一个很好的特性,那就是高斯分布的联合概率、边缘概率、条件概率仍然是满足高斯分布的,假设:
\(n\) 维的随机变量满足高斯分布: \(x\sim N(\mu,\Sigma_{n\times n})\)
那么如果我们把这个 \(n\)维的随机变量分成两部分: \(p\) 维的 \(x_a\) 和 \(q\) 维的 \(x_b\) ,满足 \(n=q+p\) ,那么按照均值向量 \(\mu\) 和协方差矩阵 \(\Sigma\) 的分块规则,就可以写成:
那么依据高斯分布的性质,我们知道下列条件分布依然是一个高维的高斯分布:
也就是说,设置了高斯过程的先验参数,一旦我们拿到一些观测值,那么就可以对高斯过程的均值函数和核函数进行修正,得到一个修正后的后验高斯过程,而更新后验参数的信息就来自于观测值。
构建先验分布
GP超参数的估计
将高斯过程对比高维高斯分布,我们把均值向量替换成均值函数,把协方差矩阵替换成核函数,就能够得到高斯过程基于观测值的后验过程的参数表达式:
我们的一组观测值,他们的时刻对应一个向量 \(X\) ,那么对应的值时另一个同纬度的向量的 \(Y\) ,假设有4组观测值,那就是 \(\{(X[1],Y[1]),((X[2],Y[2])),((X[3],Y[3])),((X[4],Y[4]))\}\)
那么余下的所有非观测点,在连续域上我们定义为 \(X^*\) ,值定义为 \(f(X^*)\)
首先,联合分布显然是满足无限维高斯分布的:
从这个联合分布所派生出来的条件概率 \(f(X^*)|Y\) 同样也服从高斯分布,当然这里指的是无限维高斯分布,其实对比一下,把 \(Y\) 看作是 \(x_a\) ,把 \(f(X^*)\) 看作是 \(x_b\) ,直接类比条件分布的参数表达式:\(f(X^*)|Y\sim N(\mu^*,k^*)\) 这里面的 \(\mu^*\) 和 \(k^*\) 就是条件分布下的后验高斯过程的均值函数和核函数的形式。
类比我们就可以写成表达式:
以下例子中,高斯过程先验我们设置均值函数为 \(\mu(X)=0\) ,径向基函数 \(k(X,X^*)=\sigma^2exp(-\frac{||X-X^*||^2}{2l^2})\)。\(X=[1,3,7,9]\) 的位置上设置一组观测值, \(Y\) 为\(X\)取正弦的基础上加上一点高斯噪声。我们在四个观测点的基础上,来求高斯过程的后验。
import matplotlib.pyplot as plt
import numpy as np
#高斯核函数
def gaussian_kernel(x1, x2, l=0.5, sigma_f=0.2):
m, n = x1.shape[0], x2.shape[0]
dist_matrix = np.zeros((m, n), dtype=float)
for i in range(m):
for j in range(n):
dist_matrix[i][j] = np.sum((x1[i] - x2[j]) ** 2)
return sigma_f ** 2 * np.exp(- 0.5 / l ** 2 * dist_matrix)
#生成观测值,取sin函数没有别的用意,单纯就是为了计算出Y
def getY(X):
X = np.asarray(X)
Y = np.sin(X)*0.4 + np.random.normal(0, 0.05, size=X.shape)
return Y.tolist()
#根据观察点X,修正生成高斯过程新的均值和协方差
def update(X, X_star):
X = np.asarray(X)
X_star = np.asarray(X_star)
K_YY = gaussian_kernel(X, X) # K(X,X)
K_ff = gaussian_kernel(X_star, X_star) # K(X*, X*)
K_Yf = gaussian_kernel(X, X_star) # K(X, X*)
K_fY = K_Yf.T # K(X*, X) 协方差矩阵是对称的,因此分块互为转置
K_YY_inv = np.linalg.inv(K_YY + 1e-8 * np.eye(len(X))) # (N, N)
mu_star = K_fY.dot(K_YY_inv).dot(Y)
cov_star = K_ff - K_fY.dot(K_YY_inv).dot(K_Yf)
return mu_star, cov_star
f, ax = plt.subplots(2, 1, sharex=True,sharey=True)
#绘制高斯过程的先验
X_pre = np.arange(0, 10, 0.1)
mu_pre = np.array([0]*len(X_pre))
Y_pre = mu_pre
cov_pre = gaussian_kernel(X_pre, X_pre)
uncertainty = 1.96 * np.sqrt(np.diag(cov_pre))#取95%置信区间
ax[0].fill_between(X_pre, Y_pre + uncertainty,Y_pre - uncertainty, alpha=0.1)
ax[0].plot(X_pre, Y_pre, label="expection")
ax[0].legend()
#绘制基于观测值的高斯过程后验
X = np.array([1, 3, 7, 9]).reshape(-1, 1)#4*1矩阵
Y = getY(X)
X_star = np.arange(0, 10, 0.1).reshape(-1, 1)
mu_star, cov_star = update(X, X_star)
Y_star = mu_star.ravel()
uncertainty = 1.96 * np.sqrt(np.diag(cov_star))#取95%置信区间
ax[1].fill_between(X_star.ravel(), Y_star + uncertainty, Y_star - uncertainty, alpha=0.1)
ax[1].plot(X_star, Y_star, label="expection")
ax[1].scatter(X, Y, label="observation point", c="red", marker="x")
ax[1].legend()
plt.show()
-
优点
- (采用 RBF 作为协方差函数)具有平滑性质,能够拟合非线性数据
- 高斯过程回归天然支持得到模型关于预测的不确定性(置信区间),直接输出关于预测点值的概率分布
- 通过最大化边缘似然这一简洁的方式,高斯过程回归可以在不需要交叉验证的情况下给出比较好的正则化效果
-
缺点
- 高斯过程是一个非参数模型,每次的 inference 都需要对所有的数据点进行(矩阵求逆)。对于没有经过任何优化的高斯过程回归,n 个样本点时间复杂度大概是 \(O(n^3)\) ,空间复杂度是 \(O(n^2)\),在数据量大的时候高斯过程变得 intractable
- 高斯过程回归中,先验是一个高斯过程,likelihood 也是高斯的,因此得到的后验仍是高斯过程。在 likelihood 不服从高斯分布的问题中(如分类),需要对得到的后验进行 approximate 使其仍为高斯过程
- RBF 是最常用的协方差函数,但在实际中通常需要根据问题和数据的性质选择恰当的协方差函数
References
多元高斯分布完全解析 -知乎
高斯分布相乘、积分整理
多维高斯分布 -博客园
多维正态分布的最大似然估计 -博客园
高斯性质:多元统计分析第01讲--多元正态分布及参数估计(随机向量,多元正态分布定义,条件分布和独立性)-知乎
高斯条件分布:多元统计分析第02讲(条件分布,随机阵的正态分布,参数估计)
高斯边缘分布:深入理解高斯分布
- 高斯过程
通俗理解: 什么是Gaussian process? —— 说说高斯过程与高斯分布的关系
从贝叶斯的角度理解高斯过程回归 -知乎
代码通俗:如何通俗易懂地介绍 Gaussian Process?
| 另一种代码实现(Cholesky分解)
Sum of normally distributed random variables
第三章·随机向量 ----概率论与数理统计
条件期望与全期望公式
汇总型:
prml -gitbook
Gaussian Processes for Machine Learning.pdf