概率分布

概率分布


1 二元变量


1 伯努利(Bernoulli)分布的形式如下

\[\text{Bern}(x|\mu)=\mu^x(1-\mu)^{1-x}. \]

实际上伯努利分布没有自己的记号,考虑其作为二项分布的一个特例,可以用\(B(1,\mu)\)作为伯努利实验结果的表示。即若\(X\sim B(1,\mu)\),则

\[P\left(X=x\right)=\text{Bern}(x|\mu). \]

容易得出,其均值与方差分别为

\[\begin{aligned} \mathbb E[x]&=\mu\\\text{var}[x]&=\mu(1-\mu). \end{aligned}\]

假定我们有\(N\)个独立观察到的样本构成的数据集\(\mathcal{D}=\left\{x_1,...,x_N\right\}\),则似然函数为

\[p(\mathcal D|\mu)=\prod_{n=1}^Np(x_n|\mu)=\prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n}, \]

似然对数为

\[\ln p(\mathcal D|\mu)=\sum_{n=1}^N\ln p(x_n|\mu)=\sum_{n=1}^N\left\{x_n\ln\mu+(1-x_n)\ln(1-\mu)\right\}, \]

关于\(\mu\)的梯度为零,求得最大似然估计为

\[\mu_\text{ML}=\frac{1}{N}\sum_{n=1}^Nx_n. \]

二项分布形式如下

\[\text{Bin}(m|N,\mu)=\left(\begin{matrix}N\\m\end{matrix}\right)\mu^m(1-\mu)^{N-m}. \]

假设\(X\sim B(N,\mu)\),则

\[P(X=m)=\text{Bin}(m|N,\mu). \]

其均值和方差分别由下式给出

\[\begin{aligned} \mathbb E[m]&=N\mu\\ \text{var}[m]&=N\mu(1-\mu). \end{aligned}\]

2 注意到通过\(N\)次独立伯努利实验对参数\(\mu\)进行估计时,似然函数为\(\mu\)\(1-\mu\)指数之积,由此引入如下beta先验分布

\[\text{Beta}(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1},\text{ }\text{ }0\leq\mu\leq1. \]

其中\(\Gamma(a+b)/\Gamma(a)\Gamma(b)\)是归一化常数,\(\Gamma(\cdot)\)形式如下

\[\Gamma(x)\equiv \int_0^\infty u^{x-1}e^{-u}\text{ d}u. \]

该分布的均值和方差分别为

\[\begin{aligned} \mathbb E[\mu]&=\frac{a}{a+b}\\ \text{var}[\mu]&= \frac{ab}{(a+b)^2(a+b+1)}. \end{aligned}\]

由于后验分布正比于先验分布于似然分布之积(倍数为与随机变量无关的某常数),因此在对二项分布进行参数估计时,后验分布满足

\[p(\mu|m,l,a,b)\propto\mu^{m+a-1}(1-\mu)^{l+b-1}, \]

其中\(l\)满足

\[m+l=N. \]

通过简单对比,容易给出后验分布的完整表示

\[p(\mu|m,l,a,b)=\frac{\Gamma(N+a+b)}{\Gamma(m+a)(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1}. \]

当数据规模趋于无穷时,贝叶斯估计和最大似然估计相同。

2 多元变量


1 考虑伯努利分布的\(K\)维扩展,使用\(\mathbf{x}=\{x_1,...,x_K\}\)表示状态随机变量,满足

\[\begin{aligned}x_k\in\{0,1\},\\ \sum_{k=1}^K x_k=1. \end{aligned}\]

若以下概率条件成立

\[P(x_k=1)=\mu_k, \]

则随机变量的分布为

\[p(\mathbf{x}|\boldsymbol{\mu})=\prod_{k=1}^K\mu_k^{x_k}, \]

其中\(\boldsymbol\mu=(\mu_1,...,\mu_K)^\text T\),约束条件为\(\mu_k\geq 0\)\(\sum_k\mu_k=1\)
现在假定我们有\(N\)个独立观察到的样本构成的数据集\(\mathcal D=\{\mathbf{x}_1,...,\mathbf x_K\}\),则似然函数为

\[p(\mathcal D|\boldsymbol\mu)=\prod_{n=1}^N\prod_{k=1}^K\mu_k^{x_{nk}}=\prod_{k=1}^K\mu_k^{\sum_nx_{nk}}=\prod_{k=1}^K \mu_k^{m_k}, \]

对数似然函数为

\[\ln p(\mathcal D|\boldsymbol\mu)=\sum_{k=1}^K m_k\ln\mu_k, \]

考虑到约束条件

\[\sum_{k=1}^K\mu_k=1, \]

利用拉格朗日乘子法可求得最大似然解

\[\mu_k^{\text{ML}}=\frac{m_k}{N}. \]

给定参数\(\boldsymbol\mu\),在\(N\)次独立观测中\(m_1,...,m_K\)的联合分布即多项分布(二项分布的扩展)

\[\text{Mult}(m_1,m_2,...,m_K|\boldsymbol\mu,N)=\left(\begin{matrix} N\\m_1m_2...m_K\end{matrix}\right)\prod_{k=1}^K\mu_k^{m_k},\]

其中

\[\left(\begin{matrix} N\\m_1m_2...m_K\end{matrix}\right)=\frac{N!}{m_1!m_2!...m_K!},\]

同时有约束条件

\[\sum_{k=1}^K m_k=N. \]

2 通过比较,多项分布的共轭先验应该具有如下形式

\[p(\boldsymbol\mu|\boldsymbol\alpha)\propto\prod_{k=1}^K \mu_k^{\alpha_k-1}, \]

其中\(0\leq\mu_k\leq 1\)\(\sum_k\mu_k=1\)\(\boldsymbol\alpha=(\alpha_1,...,\alpha_K)^\text T\)。归一化后的狄利克雷分布为

\[\text{Dir}(\boldsymbol\mu|\boldsymbol\alpha)=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\prod_{k=1}^K\mu_k^{\alpha_k-1}, \]

其中

\[\alpha_0=\sum_{k=1}^K\alpha_k. \]

3 高斯分布


1 对于\(D\)维随机变量\(\mathbf{x}\),多元高斯分布形式如下

\[\mathcal{N}(\mathbf{x}|\boldsymbol\mu,\mathbf\Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\exp\left\{-\frac{1}{2}(\mathbf x-\boldsymbol\mu)^\text T\mathbf\Sigma^{-1}(\mathbf x-\boldsymbol\mu)\right\}, \]

特别地,当\(D=1\)时,单变量高斯分布为

\[\mathcal N(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\}. \]

引出高斯分布的两个场景,一个是连续变量最大熵分布(给定均值和方差),另一个是中心极限定理,即\(N\)个独立同分布随机变量之和随着\(N\)增大收敛于高斯分布(依赖于\(N\))。特别地,当\(N\)增大时,二项分布\(\text{Bin}(m|N,\mu)\)快速收敛于高斯分布\(\mathcal N(\mu N,\mu(1-\mu)N)\)

考虑多元高斯分布中依赖于\(\mathbf x\)的二次型

\[\Delta^2=(\mathbf x-\boldsymbol\mu)^\text T\mathbf\Sigma^{-1}(\mathbf x-\boldsymbol\mu), \]

也称\(\mathbf{x}\)\(\boldsymbol\mu\)的马氏(Mahalanobis)距离,特别地,当协方差阵为单位阵时,该马氏距离退化为两向量间\(D\)维欧氏距离。
考虑到二次型的性质,不失一般性地,假定\(\mathbf\Sigma\)为对称阵。

性质1:若\(\mathbf A\)为对称阵,则\(\mathbf A^{-1}\)也为对称阵。可利用特征值和特征向量说明,参见下文。

我们知道,任意\(n\)阶方阵\(\mathbf A\)\(n\)个特征值(包括重根)。特别地,当\(\mathbf A\)为对称阵时,\(\mathbf A\)的每个\(k\)重特征值有\(k\)个线性无关的特征向量,并且属于不同特征值的特征向量正交,从而\(\mathbf A\)的所有特征值对应的所有特征向量可组成一个\(n\)阶线性无关组,特别地,它可以是单位正交组。

假设\(\mathbf\Sigma\)\(D\)个特征向量分别为\(\lambda_1,...,\lambda_D\),其对应的特征向量分别为\(\mathbf u_1,...,\mathbf u_D\),对其正交规范化(斯密特正交化后规范化),特征向量满足

\[\mathbf u_i^\text T\mathbf u_j=I_{ij}. \]

从而可用这组特征向量表示协方差阵\(\mathbf\Sigma\)

\[\mathbf\Sigma=\sum_{i=1}^D\lambda_i\mathbf u_i\mathbf u_i^\text T. \]

\[\mathbf{U}=(\mathbf u_1,...,\mathbf u_D)^\text T, \]

从而\(|\mathbf U|=1\)
由于

\[\mathbf\Sigma\mathbf u_j=\lambda_j\mathbf u_j, \]

从而

\[\mathbf\Sigma\mathbf u_j=\sum_{i=1}^D\lambda_iI_{ij}\mathbf u_i, \]

\[\mathbf\Sigma\mathbf u_j=\sum_{i=1}^D\lambda_i\mathbf u_i\mathbf u_i^\text T\mathbf u_j, \]

从而

\[\left(\mathbf\Sigma-\sum_{i=1}^D\lambda_i\mathbf u_i\mathbf u_i^\text T\right)\mathbf U^\text T=\mathbf{0}, \]

从而

\[\rm r\left(\mathbf\Sigma-\sum_{i=1}^D\lambda_i\mathbf u_i\mathbf u_i^\text T\right)=0, \]

\[\mathbf\Sigma=\sum_{i=1}^D\lambda_i\mathbf u_i\mathbf u_i^\text T. \]

类似地,可将其逆矩阵表示为

\[\mathbf\Sigma^{-1}=\sum_{i=1}^D\frac{1}{\lambda_i}\mathbf u_i\mathbf u_i^\text T. \]

将上面的结果带入二次型中,得

\[\Delta^2=\sum_{i=1}^D\frac{y_i^2}{\lambda_i}, \]

其中\(y_i\)是特征向量和差向量的内积,我们可以将其看成后者在某方向上的投影

\[y_i=\mathbf u_i^\text T(\mathbf x-\boldsymbol\mu), \]

定义\(\mathbf y=(y_1,...,y_D)^\text T\),从而

\[\mathbf y=\mathbf U(\mathbf x-\boldsymbol\mu). \]

2 假定高斯分布是良定义的,即假定协方差阵\(\mathbf\Sigma\)为正定阵。由于\(\mathbf x=(x_1,...,x_D)^\text T\)定义在笛卡尔直角坐标系中,考虑\(\mathbf y=(y_1,...,y_D)^\text T\)表示的坐标系,雅克比矩阵\(\mathbf J\)

\[J_{ij}=\frac{\partial x_i}{\partial y_j}=U_{ji}, \]

从而

\[\begin{aligned} \mathbf J&=\mathbf U^\text T, \end{aligned}\]

由于\(\mathbf U\)为单位正交阵,因此\(|\mathbf J|=1\)(与空间位置无关)。由于变换是线性的,因此在\(y_j\)坐标系中,高斯分布为

\[\begin{aligned} p(\mathbf y)&=p(\mathbf x)|\mathbf J|\\&= \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\exp\left\{-\frac 1 2(\mathbf x-\boldsymbol\mu)^\text T\mathbf\Sigma^{-1}(\mathbf x-\boldsymbol\mu)\right\}\\&=\left( \prod_{j=1}^D\frac{1}{(2\pi\lambda_j)^{1/2}}\right)\exp\left\{-\frac 1 2\sum_{j=1}^D\frac{y_j^2}{\lambda_j}\right\} \\&=\prod_{j=1}^D\frac{1}{(2\pi\lambda_j)^{1/2}}\exp\left\{-\frac{y_j^2}{2\lambda_j}\right\}. \end{aligned}\]

计算高斯分布的二阶矩

\[\begin{aligned} \mathbb E[\mathbf x\mathbf x^\text T]&=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}} \int\exp\left\{-\frac 1 2(\mathbf x-\boldsymbol\mu)^\text T\mathbf\Sigma^{-1}(\mathbf x-\boldsymbol\mu)\right\}\mathbf {xx}^\text T\text{ d}\mathbf x\\&= \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}} \int\exp\left\{-\frac 1 2\mathbf z^\text T\mathbf\Sigma^{-1}\mathbf z\right\}(\mathbf z+\boldsymbol\mu)(\mathbf z+\boldsymbol\mu)^\text T\text{ d}\mathbf z\\&= \boldsymbol{\mu\mu}^\text T+\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}} \int\exp\left\{-\frac 1 2\mathbf z^\text T\mathbf\Sigma^{-1}\mathbf z\right\}\mathbf{zz}^\text T\text{ d}\mathbf z\\&\xlongequal[\mathbf z=\mathbf U^\text T\mathbf y]{\mathbf y=\mathbf U\mathbf z} \boldsymbol{\mu\mu}^\text T+\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}} \int\exp\left\{-\frac 1 2\sum_{k=1}^D\frac{y_k^2}{\lambda_k}\right\}\mathbf U^\text T\mathbf{yy}^\text T\mathbf U\text{ d}\mathbf y\\&= \boldsymbol{\mu\mu}^\text T+\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\sum_{i=1}^D\sum_{j=1}^D\mathbf u_i\mathbf u_j^\text T \int\exp\left\{-\frac 1 2\sum_{k=1}^D\frac{y_k^2}{\lambda_k}\right\}y_iy_j\text{ d}\mathbf y\\&= \boldsymbol{\mu\mu}^\text T+\sum_{i=1}^D{\mathbf u_i\mathbf u_i^\text T\lambda_i}\\&= \boldsymbol{\mu\mu}^\text T+\mathbf\Sigma. \end{aligned}\]

其协方差矩阵为

\[\text{cov}[\mathbf x]=\mathbb E \left[(\mathbf x-\mathbb E[\mathbf x])(\mathbf x-\mathbb E[\mathbf x])^\text T\right]=\mathbf\Sigma.\]

3 结论:若两个随机变量联合分布服从高斯分布,则两者条件分布和边缘分布均服从高斯分布。假设\(\mathbf x\)\(D\)维随机变量,且\(\mathbf x\sim\mathcal N(\mathbf x|\boldsymbol\mu,\mathbf\Sigma)\),将\(\mathbf x\)拆分为两部分

\[\mathbf x=\left(\begin{matrix}\mathbf x_a\\\mathbf x_b\end{matrix}\right), \]

其中\(\mathbf x_a\)\(M\)维向量,同时可将均值向量写为

\[\boldsymbol\mu=\left(\begin{matrix}\boldsymbol\mu_a\\\boldsymbol\mu_b\end{matrix}\right), \]

将协方差矩阵\(\mathbf\Sigma\)拆分成四部分

\[\mathbf\Sigma=\left(\begin{matrix}\mathbf\Sigma_{aa}&\mathbf\Sigma_{ab}\\\mathbf\Sigma_{ba}&\mathbf\Sigma_{bb}\end{matrix}\right), \]

定义精度矩阵作为协方差阵的逆

\[\mathbf\Lambda\equiv\mathbf\Sigma^{-1}, \]

对精度矩阵进行类似的分解

\[\mathbf\Lambda=\left(\begin{matrix}\mathbf\Lambda_{aa}&\mathbf\Lambda_{ab}\\\mathbf\Lambda_{ba}&\mathbf\Lambda_{bb}\end{matrix}\right), \]

由于\(\mathbf\Sigma\)为对称阵,因此有

\[\mathbf\Sigma_{ab}^\text{T} = \mathbf\Sigma_{ba}, \]

由于对称阵的逆仍然是对称阵,因此有

\[\mathbf\Lambda_{ab}^\text T=\mathbf\Lambda_{ba}. \]

从而二次型可展开为如下形式

\[\begin{aligned} -\frac{1}{2}(\mathbf x-\boldsymbol\mu)^\text T\mathbf\Sigma^{-1}(\mathbf x-\boldsymbol\mu)=&-\frac{1}{2}\left(\begin{matrix}\mathbf x_a-\boldsymbol\mu_a\\\mathbf x_b-\boldsymbol\mu_b\end{matrix}\right)^\text T\left(\begin{matrix}\mathbf\Lambda_{aa}&\mathbf\Lambda_{ab}\\\mathbf\Lambda_{ba}&\mathbf\Lambda_{bb}\end{matrix}\right)\left(\begin{matrix}\mathbf x_a-\boldsymbol\mu_a\\\mathbf x_b-\boldsymbol\mu_b\end{matrix}\right)\\=&-\frac 1 2(\mathbf x_a-\boldsymbol\mu_a)^\text T\mathbf\Lambda_{aa}(\mathbf x_a-\boldsymbol\mu_a)-\frac 1 2(\mathbf x_a-\boldsymbol\mu_a)^\text T\mathbf\Lambda_{ab}(\mathbf x_b-\boldsymbol\mu_b)\\&-\frac 1 2(\mathbf x_b-\boldsymbol\mu_b)^\text T\mathbf\Lambda_{ba}(\mathbf x_a-\boldsymbol\mu_a)-\frac 1 2(\mathbf x_b-\boldsymbol\mu_b)^\text T\mathbf\Lambda_{bb}(\mathbf x_b-\boldsymbol\mu_b), \end{aligned}\]

由于

\[p(\mathbf x_a|\mathbf x_b)=\frac{p(\mathbf x)}{p(\mathbf x_b)}, \]

固定\(\mathbf x_b\),条件概率与联合概率线性相关,注意到二次型的改写形式此时是关于\(\mathbf x_a\)的平方函数,因此规范化的条件分布必然也是高斯分布。
利用对称性,通过对一般形式高斯分布二次型的展开与当前条件分布二次型展开形式的系数比较,我们能快速地确定条件分布的均值和方差

\[\begin{aligned}\mathbf\Sigma_{a|b}&=\mathbf\Lambda_{aa}^{-1}\\ \boldsymbol\mu_{a|b}&=\boldsymbol\mu_a-\mathbf\Lambda_{aa}^{-1}\mathbf\Lambda_{ab}(\mathbf x_b-\boldsymbol\mu_b), \end{aligned}\]

利用分块矩阵的求逆公式,可以将上述结果用原协方差阵分块矩阵表示,由于

\[\left(\begin{matrix}\mathbf A&\mathbf B\\\mathbf C&\mathbf D\end{matrix}\right)^{-1}=\left(\begin{matrix}\mathbf M&-\mathbf M\mathbf{BD}^{-1}\\-\mathbf D^{-1}\mathbf{CM}&\mathbf D^{-1}+\mathbf D^{-1}\mathbf{CMBD}^{-1}\end{matrix}\right), \]

其中

\[\mathbf M=(\mathbf A-\mathbf B\mathbf D^{-1}\mathbf C)^{-1}, \]

从而协方差分块矩阵和精度分块矩阵的对应关系为

\[\begin{aligned} \mathbf\Lambda_{aa}&=(\mathbf\Sigma_{aa}-\mathbf\Sigma_{aa}\mathbf\Sigma_{bb}^{-1}\mathbf\Sigma_{ba})^{-1}\\ \mathbf\Lambda_{ab}&=-(\mathbf\Sigma_{aa}-\mathbf\Sigma_{ab}\mathbf\Sigma_{bb}^{-1}\mathbf\Sigma_{ba})^{-1}\mathbf\Sigma_{ab}\mathbf\Sigma_{bb}^{-1}, \end{aligned}\]

从而均值和方差可重写为

\[\begin{aligned} \boldsymbol\mu_{a|b}&=\boldsymbol\mu_a+\mathbf\Sigma_{ab}\mathbf\Sigma_{bb}^{-1}(\mathbf x_a-\mathbf x_b)\\ \mathbf\Sigma_{a|b}&=\mathbf\Sigma_{aa}-\mathbf\Sigma_{ab}\mathbf\Sigma_{bb}^{-1}\mathbf\Sigma_{ba}. \end{aligned}\]

该条件分布是线性高斯模型的一个例子,假定\(\mathbf x_b\)作为\(\mathbf x_a\)的前驱结点,由于条件分布\(\mathbf x_a|\mathbf x_b\)服从某个高斯分布,其均值是父结点(\(\mathbf x_b\))的线性函数,协方差与\(\mathbf x_a\)无关。

4 对于边缘分布的情况,\(\mathbf x_a\)服从如下高斯分布

\[p(\mathbf x_a)=\mathcal N(\mathbf x_a|\boldsymbol\mu_a,\mathbf\Sigma_{aa}). \]

现在考虑反向的问题(例如在线性高斯模型的实例中),给定两个随机变量的条件和边缘分布,求其联合分布。具体地,假定

\[\begin{aligned} p(\mathbf x)&=\mathcal N(\mathbf x|\boldsymbol\mu,\mathbf\Lambda^{-1})\\ p(\mathbf y|\mathbf x)&=\mathcal N(\mathbf y|\mathbf A\mathbf x+\mathbf b,\mathbf L^{-1}) ,\end{aligned}\]

定义

\[\mathbf z=\left(\begin{matrix}\mathbf x\\\mathbf y\end{matrix}\right), \]

从而联合变量\(\mathbf z\)的分布对数形式为

\[\begin{aligned} \ln p(\mathbf z)&=\ln p(\mathbf x)+\ln p(\mathbf y|\mathbf x)\\&= -\frac12(\mathbf x-\boldsymbol\mu)^\text T\mathbf\Lambda(\mathbf x-\boldsymbol\mu)-\frac12(\mathbf y-\mathbf{Ax}-\mathbf b)^\text T\mathbf L(\mathbf y-\mathbf{Ax}-\mathbf b)+\text{const}, \end{aligned}\]

首先分析上式中的二次项以得到精度矩阵\(\mathbf R\)

\[\mathbf R=\left(\begin{matrix} \mathbf\Lambda+\mathbf A^\text T\mathbf{LA}&-\mathbf A^\text T\mathbf L\\-\mathbf{LA}&\mathbf L \end{matrix}\right),\]

利用分块矩阵求逆公式,得\(\mathbf z\)协方差矩阵为

\[\text{cov}[\mathbf z]=\mathbf R^{-1}=\left(\begin{matrix} \mathbf\Lambda^{-1}&\mathbf\Lambda^{-1}\mathbf A^\text T\\ \mathbf A\mathbf\Lambda^{-1}&\mathbf L^{-1}+\mathbf A\mathbf\Lambda^{-1}\mathbf A^\text T \end{matrix}\right),\]

通过分析线性项并进行系数对比,可得联合高斯分布的均值为

\[\mathbb E[\mathbf z]=\mathbf R^{-1}\left(\begin{matrix} \mathbf A\boldsymbol\mu-\mathbf A^\text T\mathbf{Lb}\\\mathbf{Lb} \end{matrix}\right)=\left(\begin{matrix}\boldsymbol\mu\\\mathbf A\boldsymbol\mu+\mathbf b\end{matrix}\right).\]

现在我们可以利用前面的结论立即给出\(\mathbf y\)边缘高斯分布的数字特征

\[\begin{aligned} \mathbb E[\mathbf y]&=\mathbf A\boldsymbol\mu+\mathbf b\\ \text{cov}[\mathbf y]&=\mathbf L^{-1}+\mathbf{A\Lambda}^{-1}\mathbf{A}^\text T, \end{aligned}\]

以及给定\(\mathbf y\)\(\mathbf x\)的条件分布形式

\[\begin{aligned} \mathbb E[\mathbf x|\mathbf y]&=(\mathbf\Lambda+\mathbf A^\text T\mathbf{LA})^{-1}\left\{\mathbf A^\text T\mathbf L(\mathbf y-\mathbf b)+\mathbf\Lambda\boldsymbol\mu\right\}\\ \text{cov}[\mathbf x|\mathbf y]&=(\mathbf\Lambda+\mathbf A^\text T\mathbf{LA})^{-1}. \end{aligned}\]

4 指数族分布


5 非参数化方法


1 参数化方法的运行结果依赖于模型的选择(多大程度上正确描述了真实数据的分布情况),相较而言,非参数化方法所作的假设要少得多。非参数化方法也分为基于频率和贝叶斯两类,这里主要讨论前者。考虑最简单的使用直方图进行密度估计,假设随机变量\(x\)为一维连续变量,将\(x\)的取值区间切分为若干宽度为\(\Delta_i\)的小块,落到第\(i\)块内的观测样本数为\(n_i\),总样本数为\(N\),从而给出对该块概率密度\(p_i\)的估计为

\[p_i=\frac{n_i}{N\Delta_i}, \]

显然这种估计方法给出的密度估计呈阶梯状,当选取的块宽\(\Delta_i\)较小时,由绘制出的频数直方图可见,此时的密度估计对样本(尤其是其随机性)较为敏感,

我们说密度估计对样本随机性敏感是指这种估计过分还原了样本作为真实分布反映的特性从而损失了其对原本分布共性的复原。在极端情形下,当块宽极小时,密度估计和样本可以近似等价(相互无损失转换)。

其平滑性较差,而当块宽\(\Delta_i\)较大时,此时的密度估计容易丢失重要的分布特征,如下图所示(第一行)。实际上适当的\(\Delta_i\)的选取才能给出对原始分布的最佳估计,这与所谓模型复杂度或控制模型复杂度的正则化参数的选取殊途同归。
图1
直方图估计的缺点主要是密度估计不连续以及维数受限的问题。在\(D\)维空间中,每一维使用\(M\)个小块,总需\(M^D\)个小块,随着\(D\)的增大,该数量呈指数式上升。此外所需的训练数据规模也以该速度增加。为了解决维数扩展的问题,以下介绍两种非参数化密度估计方法,分别是核估计最近邻

2 受直方图估计的启发,密度估计应该在待估计点的附近(locality)进行。假设观测数据由某个定义在\(D\)维空间的密度函数\(p(\mathbf{x})\)给出,考虑包含\(\mathbf{x}\)的一个小区域\(\mathcal{R}\),其概率为

\[P=\int_\mathcal{R}{p(\mathbf{x})}{\rm{d}}\mathbf{x}, \]

假设观测数据规模(包含的观测点数目)为\(N\),落在区域\(\mathcal{R}\)内的数目为\(K\),从而\(K\)作为随机变量,其分布满足

\[P\{B(N,P)=K\}=\binom{N}{K}P^K(1-P)^{N-K}, \]

由于\(\mathbb{E}[K/N]=\mathbb{E}[K]/N=P\),且\(\text{var}[K/N]=\text{var}[K]/N^2=P(1-P)/N\),从而当\(N\)充分大时,满足

\[K\simeq NP, \]

\[\lim_{N\rightarrow \infty}\mathbb{E}\left[\frac{K-NP}{NP}\right]=0, \]

\[\lim_{N\rightarrow \infty}\text{var}\left[\frac{K-NP}{NP}\right]=\lim_{N\rightarrow \infty}\frac{1-P}{NP}=0. \]

假设\(\mathcal{R}\)足够小,从而概率密度近似为某定值,满足

\[P\simeq p(\mathbf{x})V, \]

从而对\(p(\mathbf{x})\)的估计为

\[p(\mathbf{x})=\frac{K}{NV}, \]

值得注意的是,为了给出对概率密度“足够好”的估计,我们使用了两条不一致的假设。一方面,\(\mathcal{R}\)应该充分小,从而区域密度恒定;另一方面,\(\mathcal{R}\)也应该足够大从而保证落入该区域的观测点数目足够接近\(NVp(\mathbf{x})\)

\(N\)充分大时,\(K/V\)充分大(\(K\)\(V\)减),\(p(\mathbf{x})\)将收敛于真实密度。

核方法固定\(V\)调整\(K\),而最近邻固定\(K\),调整\(V\)

3 核函数法固定体积统计频数。区域\(\mathcal{R}\)是以\(D\)维空间中的点\(\mathbf{x}\)为中心的超立方体,其边长为\(h\),定于如下核函数(此处亦称Parzen窗)

\[k(\mathbf{u})=\left\{\begin{aligned}1,\text{ }\text{ }\text{ }&|u_i|\leq \frac{1}{2},\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }i=1,...,D,\\0,\text{ }\text{ }\text{ }&\text{其他},\end{aligned}\right. \]

显然当且\(\mathbf{x_n}\)落在\(\mathcal{R}\)内(或边界上)时,核函数值\(k((\mathbf{x}-\mathbf{x_n})/h)\)\(1\)。从而落在\(\mathcal{R}\)内数据点总数\(K\)满足

\[K=\sum_{n=1}^Nk\left(\frac{\mathbf{x}-\mathbf{x}_n}{h}\right), \]

从而对点\(\mathbf{x}\)处的密度估计为

\[\begin{aligned}p(\mathbf{x})&=\frac{K}{NV}\\&=\frac{1}{N}\sum_{n=1}^{N}{\frac{1}{h^D}k\left(\frac{\mathbf{x}-\mathbf{x}_n}{h}\right)},\end{aligned} \]

与直方图估计法一样,该核函数的选取意味着超立方体边界处密度估计值不连续,为此可以选取平滑的核函数,如高斯核:

\[k(\mathbf{u})=\exp\left\{-\frac{\Vert\mathbf{x}-\mathbf{x}_n\Vert^2}{2h^2}\right\}, \]

从而核密度估计模型为

\[p(\mathbf{x})=\frac{1}{N}\sum_{n=1}^N{\frac{1}{\sqrt{2\pi}h}\exp\left\{-\frac{\Vert\mathbf{x}-\mathbf{x}_n\Vert^2}{2h^2}\right\}}. \]

很显然,该模型是以\(N\)个数据点为中心的\(D\)维高斯模型的混合,常系数\(1/{N\sqrt{2\pi}h}\)使得该密度模型正确规范化。
推而广之,核密度估计或Parzen估计模型只需选取的核函数满足如下两个条件

\[\begin{aligned}k(\mathbf{u})&\geq 0,\\\int k(\mathbf{u})&=1.\end{aligned} \]

该估计方法在训练阶段计算代价为\(0\),在测试阶段计算代价为\(O(N)\)

4 核估计的一个缺点是参数\(h\)的选取(决定平滑程度/模型复杂度)是全局的,而实际上我们希望\(h\)可以自适应地根据数据点位置进行调整。\(K\)近邻方法是固定\(K\)调整\(V\)进行密度估计的方法:选取以\(\mathbf{x}\)为中心恰好能包含\(K\)个数据点的球体,其体积记为\(V\),从而该出的密度估计值为\(p(\mathbf{x})=K/VN\)。这里控制模型复杂度的参数为\(K\)。利用贝叶斯公式可将该模型用于分类问题,误分率最低的决策是将\(\mathbf{x}\)赋给球内出现频数最高的类别。特别地,当\(K=1\)使,将\(\mathbf{x}\)赋给距离其最近的数据点所属类别,当\(N\)趋于无穷大时,其误分率不会超过最优决策(按真实类别分布计算)的两倍。

posted @ 2018-07-04 22:49  astoninfer  阅读(568)  评论(0编辑  收藏  举报