1.3多元正态分布
多元正态分布知识点详解与完整推导证明
我从定义溯源、核心公式推导、性质证明、退化情形拓展四个维度,系统讲解多元正态分布的完整知识体系,所有推导均严格遵循概率论与线性代数的基本公理,步骤详尽可追溯。
一、基础定义与核心符号说明
设 \(X=(X_1,X_2,\dots,X_n)^\mathrm{T}\) 为n维随机列向量,我们先明确核心参数的定义:
- 均值向量:\(\mu = \mathrm{E}(X) = (\mathrm{E}(X_1),\mathrm{E}(X_2),\dots,\mathrm{E}(X_n))^\mathrm{T} = (\mu_1,\mu_2,\dots,\mu_n)^\mathrm{T}\),刻画随机向量的中心位置;
- 协方差矩阵:\(\Sigma = \mathrm{Var}(X) = \mathrm{E}\left[(X-\mu)(X-\mu)^\mathrm{T}\right] = (\sigma_{ij})_{n\times n}\),其中 \(\sigma_{ij}=\mathrm{Cov}(X_i,X_j)=\mathrm{E}\left[(X_i-\mu_i)(X_j-\mu_j)\right]\)。
- 协方差矩阵必为对称半正定矩阵(记为 \(\Sigma\geq0\)),满足 \(\Sigma^\mathrm{T}=\Sigma\),且对任意n维实向量 \(a\),有 \(a^\mathrm{T}\Sigma a\geq0\);
- 当 \(\Sigma\) 为正定矩阵(记为 \(\Sigma>0\),即所有特征值严格大于0)时,分布为非退化多元正态分布,存在概率密度函数;
- 当 \(\Sigma\) 为半正定矩阵(\(\mathrm{rk}(\Sigma)=r<n\))时,分布为退化多元正态分布,无密度函数,需通过特征函数定义。
二、非退化多元正态分布的密度函数推导(式1.3.5)
非退化多元正态分布的密度函数为:
我们从n维标准正态分布出发,通过线性变换完成严格推导:
步骤1:n维标准正态分布的密度
设 \(Z=(Z_1,Z_2,\dots,Z_n)^\mathrm{T}\),其中 \(Z_1,Z_2,\dots,Z_n\) 独立同分布于标准正态分布 \(N(0,1)\),则称 \(Z\) 服从n维标准正态分布,记为 \(Z\sim N(0,I_n)\)(\(I_n\) 为n阶单位矩阵)。
由独立性,联合密度为各边际密度的乘积:
步骤2:构造一般正态分布的线性变换
对于正定对称矩阵 \(\Sigma\),由线性代数的Cholesky分解(或谱分解),存在可逆矩阵 \(A\),使得 \(\Sigma = AA^\mathrm{T}\)。
构造线性变换:
我们先验证其均值与协方差:
- 均值:\(\mathrm{E}(X) = \mathrm{E}(\mu + AZ) = \mu + A\mathrm{E}(Z) = \mu\),符合定义;
- 协方差:\(\mathrm{Var}(X) = \mathrm{Var}(\mu + AZ) = A\mathrm{Var}(Z)A^\mathrm{T} = AI_nA^\mathrm{T} = AA^\mathrm{T} = \Sigma\),符合定义。
步骤3:随机向量线性变换的密度公式
对于可逆线性变换 \(X = \mu + AZ\),其逆变换为 \(Z = A^{-1}(X-\mu)\)。
根据多元随机变量的变量替换公式,\(X\) 的密度满足:
其中 \(\left| \det\left( \frac{\partial Z}{\partial X} \right) \right|\) 是逆变换的雅可比行列式的绝对值。
步骤4:化简雅可比行列式与指数项
-
雅可比行列式化简:
正变换的雅可比矩阵为 \(\frac{\partial X}{\partial Z}=A\),因此逆变换的雅可比行列式为:\[\left| \det\left( \frac{\partial Z}{\partial X} \right) \right| = \left| \det(A^{-1}) \right| = \frac{1}{|\det(A)|} \]由 \(\Sigma=AA^\mathrm{T}\),得 \(\det(\Sigma)=\det(A)\det(A^\mathrm{T})=[\det(A)]^2\),因此 \(|\det(A)|=\sqrt{\det(\Sigma)}=|\Sigma|^{1/2}\),代入得:
\[\left| \det\left( \frac{\partial Z}{\partial X} \right) \right| = |\Sigma|^{-1/2} \] -
指数项化简:
将 \(Z=A^{-1}(x-\mu)\) 代入标准正态密度的指数部分:\[-\frac{1}{2} z^\mathrm{T} z = -\frac{1}{2} \left( A^{-1}(x-\mu) \right)^\mathrm{T} \left( A^{-1}(x-\mu) \right) \]由矩阵转置性质 \((AB)^\mathrm{T}=B^\mathrm{T}A^\mathrm{T}\),得:
\[\left( A^{-1}(x-\mu) \right)^\mathrm{T} \left( A^{-1}(x-\mu) \right) = (x-\mu)^\mathrm{T} (A^{-1})^\mathrm{T} A^{-1} (x-\mu) \]又由 \(\Sigma^{-1}=(AA^\mathrm{T})^{-1}=(A^\mathrm{T})^{-1}A^{-1}=(A^{-1})^\mathrm{T}A^{-1}\),因此指数项最终化简为:
\[-\frac{1}{2} (x-\mu)^\mathrm{T} \Sigma^{-1} (x-\mu) \]
步骤5:合并得到密度函数
将雅可比行列式与指数项代入密度公式,最终得到:
推导完毕。
三、多元正态分布的特征函数推导(式1.3.6)
特征函数是刻画随机分布的核心工具,对退化/非退化多元正态分布均适用,其定义为:
其中 \(t=(t_1,t_2,\dots,t_n)^\mathrm{T}\) 为n维实向量,\(\mathrm{i}\) 为虚数单位。
推导过程
-
对任意半正定矩阵 \(\Sigma\),均可做谱分解 \(\Sigma=AA^\mathrm{T}\)(\(A\) 为 \(n\times n\) 矩阵,无需可逆),因此任意多元正态随机向量均可表示为 \(X=\mu + AZ\),其中 \(Z\sim N(0,I_n)\)。
-
代入特征函数定义:
\[\varphi(t) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} t^\mathrm{T} X} \right) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} t^\mathrm{T} (\mu + AZ)} \right) = \mathrm{e}^{\mathrm{i} t^\mathrm{T} \mu} \cdot \mathrm{E}\left( \mathrm{e}^{\mathrm{i} (A^\mathrm{T} t)^\mathrm{T} Z} \right) \] -
计算标准正态向量的特征函数:
令 \(u=A^\mathrm{T} t\),则 \(\mathrm{E}\left( \mathrm{e}^{\mathrm{i} u^\mathrm{T} Z} \right) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} \sum_{k=1}^n u_k Z_k} \right)\)。
由 \(Z_k\) 独立,期望可拆分为乘积:\[\mathrm{E}\left( \mathrm{e}^{\mathrm{i} \sum_{k=1}^n u_k Z_k} \right) = \prod_{k=1}^n \mathrm{E}\left( \mathrm{e}^{\mathrm{i} u_k Z_k} \right) \]一维标准正态的特征函数为 \(\mathrm{E}\left( \mathrm{e}^{\mathrm{i} u_k Z_k} \right) = \exp\left( -\frac{u_k^2}{2} \right)\),因此:
\[\prod_{k=1}^n \exp\left( -\frac{u_k^2}{2} \right) = \exp\left( -\frac{1}{2} \sum_{k=1}^n u_k^2 \right) = \exp\left( -\frac{1}{2} u^\mathrm{T} u \right) \] -
回代化简:
将 \(u=A^\mathrm{T} t\) 代入,得 \(u^\mathrm{T} u = (A^\mathrm{T} t)^\mathrm{T} (A^\mathrm{T} t) = t^\mathrm{T} AA^\mathrm{T} t = t^\mathrm{T} \Sigma t\)。 -
合并得到特征函数:
\[\varphi(t) = \mathrm{e}^{\mathrm{i} \mu^\mathrm{T} t} \cdot \exp\left( -\frac{1}{2} t^\mathrm{T} \Sigma t \right) = \exp\left\{ \mathrm{i}\mu^\mathrm{T} t - \frac{1}{2} t^\mathrm{T} \Sigma t \right\} \]推导完毕。
核心结论:多元正态分布完全由其均值向量 \(\mu\) 和协方差矩阵 \(\Sigma\) 决定(分布由特征函数唯一确定),因此也被称为“二阶矩分布”。
四、多元正态分布核心性质的严格证明
性质1:矩性质
设 \(\tilde{X}=X-\mu\)(零均值化的正态向量),则:
- 三阶混合矩:\(\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k) = 0\);
- 四阶混合矩:\(\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k \tilde{X}_l) = \sigma_{ij}\sigma_{kl} + \sigma_{ik}\sigma_{jl} + \sigma_{il}\sigma_{kj}\)。
证明
由 \(\tilde{X}=AZ\)(\(Z\sim N(0,I_n)\)),得 \(\tilde{X}_i = \sum_{m=1}^n a_{im} Z_m\)(\(a_{im}\) 为矩阵 \(A\) 的第i行第m列元素)。
-
三阶矩证明:
展开得:\[\tilde{X}_i \tilde{X}_j \tilde{X}_k = \sum_{m,l,p=1}^n a_{im}a_{jl}a_{kp} Z_m Z_l Z_p \]取期望得:
\[\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k) = \sum_{m,l,p=1}^n a_{im}a_{jl}a_{kp} \mathrm{E}(Z_m Z_l Z_p) \]标准正态分布关于0对称,所有奇阶矩均为0:
- 若 \(m,l,p\) 中有任意一个指标单独出现,\(\mathrm{E}(Z_m Z_l Z_p)=\mathrm{E}(Z_·)\cdot\mathrm{E}(\cdot)=0\);
- 若 \(m=l=p\),\(\mathrm{E}(Z_m^3)=0\)(奇函数在对称区间积分为0)。
因此所有项均为0,故 \(\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k) = 0\)。
-
四阶矩证明:
展开得:\[\tilde{X}_i \tilde{X}_j \tilde{X}_k \tilde{X}_l = \sum_{m,n,p,q=1}^n a_{im}a_{jn}a_{kp}a_{lq} Z_m Z_n Z_p Z_q \]取期望得:
\[\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k \tilde{X}_l) = \sum_{m,n,p,q=1}^n a_{im}a_{jn}a_{kp}a_{lq} \mathrm{E}(Z_m Z_n Z_p Z_q) \]由正态分布的Wick定理(零均值正态变量的矩定理),四阶矩仅当指标两两配对时非零,即:
\[\mathrm{E}(Z_m Z_n Z_p Z_q) = \delta_{mn}\delta_{pq} + \delta_{mp}\delta_{nq} + \delta_{mq}\delta_{np} \]其中 \(\delta_{ab}\) 为克罗内克函数(\(a=b\) 时为1,否则为0)。
将其拆分为三项求和:
- 第一项:\(\sum_{m,p} a_{im}a_{jm}a_{kp}a_{lp} = \left( \sum_m a_{im}a_{jm} \right)\left( \sum_p a_{kp}a_{lp} \right) = (AA^\mathrm{T})_{ij}(AA^\mathrm{T})_{kl} = \sigma_{ij}\sigma_{kl}\)
- 第二项:\(\sum_{m,n} a_{im}a_{jn}a_{km}a_{ln} = \left( \sum_m a_{im}a_{km} \right)\left( \sum_n a_{jn}a_{ln} \right) = (AA^\mathrm{T})_{ik}(AA^\mathrm{T})_{jl} = \sigma_{ik}\sigma_{jl}\)
- 第三项:\(\sum_{m,n} a_{im}a_{jn}a_{kn}a_{lm} = \left( \sum_m a_{im}a_{lm} \right)\left( \sum_n a_{jn}a_{kn} \right) = (AA^\mathrm{T})_{il}(AA^\mathrm{T})_{jk} = \sigma_{il}\sigma_{kj}\)
三项合并即得:
\[\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k \tilde{X}_l) = \sigma_{ij}\sigma_{kl} + \sigma_{ik}\sigma_{jl} + \sigma_{il}\sigma_{kj} \]证明完毕。
性质2:线性变换不变性
设 \(X\sim N(\mu,\Sigma)\),\(A\) 为 \(m\times n\) 常数矩阵,\(b\) 为m维常数向量,则:
特别地,若 \(\Sigma\) 正定,则 \(\Sigma^{-1/2}(X-\mu) \sim N(0,I_n)\)。
证明
我们通过特征函数唯一性证明:
\(Y\) 的特征函数为:
代入 \(X\) 的特征函数 \(\varphi_X(t)=\exp\left( \mathrm{i}\mu^\mathrm{T} t - \frac{1}{2}t^\mathrm{T}\Sigma t \right)\),令 \(t=A^\mathrm{T} s\),得:
整理得:
该式正是m维正态分布 \(N(A\mu + b, A\Sigma A^\mathrm{T})\) 的特征函数,由特征函数唯一性,\(Y\sim N(A\mu + b, A\Sigma A^\mathrm{T})\)。
特别情形证明:
\(\Sigma\) 正定时,\(\Sigma^{-1/2}\) 为对称可逆矩阵,满足 \(\Sigma^{-1/2}\Sigma\Sigma^{-1/2}=I_n\)。令 \(A=\Sigma^{-1/2}\),\(b=-\Sigma^{-1/2}\mu\),则:
由线性变换性质,\(Y\) 的均值为 \(A\mu + b = 0\),协方差为 \(A\Sigma A^\mathrm{T}=I_n\),故 \(Y\sim N(0,I_n)\),证明完毕。
性质3:多元正态的等价定义
\(X\) 服从n维多元正态分布的充要条件是:对任意n维实向量 \(a\),\(a^\mathrm{T}X\) 服从一元正态分布。
证明
-
必要性(\(\Rightarrow\)):
若 \(X\sim N(\mu,\Sigma)\),令 \(Y=a^\mathrm{T}X\),由性质2(线性变换不变性),\(Y\) 服从一元正态分布,均值为 \(a^\mathrm{T}\mu\),方差为 \(a^\mathrm{T}\Sigma a\),必要性得证。 -
充分性(\(\Leftarrow\)):
若对任意 \(a\),\(a^\mathrm{T}X\) 服从一元正态分布,则 \(X\) 的各分量一阶、二阶矩均存在,记 \(\mathrm{E}(X)=\mu\),\(\mathrm{Var}(X)=\Sigma\)。对任意n维向量 \(t\),令 \(Y=t^\mathrm{T}X\),由条件 \(Y\sim N(t^\mathrm{T}\mu, t^\mathrm{T}\Sigma t)\),其特征函数为:
\[\varphi_Y(s) = \exp\left( \mathrm{i} s \cdot t^\mathrm{T}\mu - \frac{1}{2} s^2 \cdot t^\mathrm{T}\Sigma t \right) \]令 \(s=1\),则 \(\varphi_Y(1)=\mathrm{E}\left( \mathrm{e}^{\mathrm{i} t^\mathrm{T} X} \right)=\varphi_X(t)\),即 \(X\) 的特征函数为:
\[\varphi_X(t) = \exp\left( \mathrm{i} \mu^\mathrm{T} t - \frac{1}{2} t^\mathrm{T}\Sigma t \right) \]该式正是n维多元正态分布的特征函数,故 \(X\sim N(\mu,\Sigma)\),充分性得证。
关键注记:该性质不能弱化为“\(X\) 的每个分量都是正态分布”——分量正态无法推出联合正态,必须任意线性组合均为正态,才能保证联合正态。
性质4:边缘分布与独立-不相关等价性
将 \(X\) 分块为 \(X=\begin{pmatrix} X_1 \\ X_2 \end{pmatrix}\),对应均值 \(\mu=\begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}\),协方差矩阵 \(\Sigma=\begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}\)(\(\Sigma_{21}=\Sigma_{12}^\mathrm{T}\)),则:
- 边缘分布:\(X_1\sim N(\mu_1,\Sigma_{11})\),\(X_2\sim N(\mu_2,\Sigma_{22})\);
- 独立等价性:\(X_1\) 与 \(X_2\) 独立的充要条件是 \(\Sigma_{12}=\mathrm{Cov}(X_1,X_2)=0\)(即不相关);
- 线性变换独立条件:\(Y=AX\) 与 \(Z=BX\) 独立的充要条件是 \(\mathrm{Cov}(Y,Z)=A\Sigma B^\mathrm{T}=0\)。
证明
-
边缘分布证明:
\(X\) 的特征函数为:\[\varphi_X(t_1,t_2) = \exp\left( \mathrm{i}\mu_1^\mathrm{T}t_1 + \mathrm{i}\mu_2^\mathrm{T}t_2 - \frac{1}{2}t_1^\mathrm{T}\Sigma_{11}t_1 - \frac{1}{2}t_2^\mathrm{T}\Sigma_{22}t_2 - t_1^\mathrm{T}\Sigma_{12}t_2 \right) \]边缘特征函数满足 \(\varphi_{X_1}(t_1)=\varphi_X(t_1,0)\),令 \(t_2=0\),得:
\[\varphi_{X_1}(t_1) = \exp\left( \mathrm{i}\mu_1^\mathrm{T}t_1 - \frac{1}{2}t_1^\mathrm{T}\Sigma_{11}t_1 \right) \]该式为 \(N(\mu_1,\Sigma_{11})\) 的特征函数,故 \(X_1\sim N(\mu_1,\Sigma_{11})\)。同理可证 \(X_2\sim N(\mu_2,\Sigma_{22})\)。
-
独立-不相关等价性证明:
随机向量独立的充要条件是联合特征函数等于边缘特征函数的乘积,即:\[\varphi_X(t_1,t_2) = \varphi_{X_1}(t_1)\varphi_{X_2}(t_2) \]代入表达式得:
\[\exp\left( \mathrm{i}\mu_1^\mathrm{T}t_1 + \mathrm{i}\mu_2^\mathrm{T}t_2 - \frac{1}{2}t_1^\mathrm{T}\Sigma_{11}t_1 - \frac{1}{2}t_2^\mathrm{T}\Sigma_{22}t_2 - t_1^\mathrm{T}\Sigma_{12}t_2 \right) = \exp\left( \mathrm{i}\mu_1^\mathrm{T}t_1 - \frac{1}{2}t_1^\mathrm{T}\Sigma_{11}t_1 \right)\exp\left( \mathrm{i}\mu_2^\mathrm{T}t_2 - \frac{1}{2}t_2^\mathrm{T}\Sigma_{22}t_2 \right) \]等式成立当且仅当 \(\exp\left( -t_1^\mathrm{T}\Sigma_{12}t_2 \right)=1\) 对所有 \(t_1,t_2\) 成立,即 \(t_1^\mathrm{T}\Sigma_{12}t_2=0\) 对所有 \(t_1,t_2\) 成立,等价于 \(\Sigma_{12}=0\)。
而 \(\Sigma_{12}=\mathrm{Cov}(X_1,X_2)\),\(\Sigma_{12}=0\) 即 \(X_1\) 与 \(X_2\) 不相关,故独立与不相关等价,证明完毕。
-
线性变换独立条件证明:
\(Y=AX\)、\(Z=BX\) 均为 \(X\) 的线性变换,故 \(\begin{pmatrix} Y \\ Z \end{pmatrix}=\begin{pmatrix} A \\ B \end{pmatrix}X\) 为多元正态分布。由上述结论,\(Y\) 与 \(Z\) 独立的充要条件是 \(\mathrm{Cov}(Y,Z)=0\),而:
\[\mathrm{Cov}(Y,Z) = \mathrm{E}\left[ (Y-\mathrm{E}(Y))(Z-\mathrm{E}(Z))^\mathrm{T} \right] = A\mathrm{E}\left[ (X-\mu)(X-\mu)^\mathrm{T} \right]B^\mathrm{T} = A\Sigma B^\mathrm{T} \]故充要条件为 \(A\Sigma B^\mathrm{T}=0\),证明完毕。
性质5:正交投影独立性
设 \(Z = X_2 - \Sigma_{21}\Sigma_{11}^{-1}X_1\),则 \(X_1\) 与 \(Z\) 独立,且:
证明
-
独立性证明:
\(X_1\) 与 \(Z\) 均为 \(X\) 的线性变换,故联合为多元正态分布,只需证明 \(\mathrm{Cov}(X_1,Z)=0\)。计算协方差:
\[\mathrm{Cov}(X_1,Z) = \mathrm{Cov}\left( X_1, X_2 - \Sigma_{21}\Sigma_{11}^{-1}X_1 \right) = \mathrm{Cov}(X_1,X_2) - \mathrm{Cov}\left( X_1, \Sigma_{21}\Sigma_{11}^{-1}X_1 \right) \]由协方差性质 \(\mathrm{Cov}(X,AY)=A\mathrm{Cov}(X,Y)\),得:
\[\mathrm{Cov}\left( X_1, \Sigma_{21}\Sigma_{11}^{-1}X_1 \right) = \Sigma_{21}\Sigma_{11}^{-1}\mathrm{Cov}(X_1,X_1) = \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{11} = \Sigma_{21} \]而 \(\mathrm{Cov}(X_1,X_2)=\Sigma_{12}=\Sigma_{21}^\mathrm{T}\),结合 \(\Sigma_{11}\) 对称,\(\Sigma_{11}^{-1}\) 对称,最终得:
\[\mathrm{Cov}(X_1,Z) = \Sigma_{12} - \Sigma_{12} = 0 \]故 \(X_1\) 与 \(Z\) 独立。
-
均值与方差计算:
均值:\[\mathrm{E}(Z) = \mathrm{E}(X_2) - \Sigma_{21}\Sigma_{11}^{-1}\mathrm{E}(X_1) = \mu_2 - \Sigma_{21}\Sigma_{11}^{-1}\mu_1 \]方差:
记 \(\tilde{X}_1=X_1-\mu_1\),\(\tilde{X}_2=X_2-\mu_2\),则 \(Z-\mathrm{E}(Z)=\tilde{X}_2 - \Sigma_{21}\Sigma_{11}^{-1}\tilde{X}_1\),因此:\[\mathrm{Var}(Z) = \mathrm{E}\left[ (Z-\mathrm{E}(Z))(Z-\mathrm{E}(Z))^\mathrm{T} \right] \]展开得:
\[= \mathrm{E}\left[ \tilde{X}_2\tilde{X}_2^\mathrm{T} - \tilde{X}_2\tilde{X}_1^\mathrm{T}(\Sigma_{21}\Sigma_{11}^{-1})^\mathrm{T} - \Sigma_{21}\Sigma_{11}^{-1}\tilde{X}_1\tilde{X}_2^\mathrm{T} + \Sigma_{21}\Sigma_{11}^{-1}\tilde{X}_1\tilde{X}_1^\mathrm{T}(\Sigma_{21}\Sigma_{11}^{-1})^\mathrm{T} \right] \]代入 \(\mathrm{E}(\tilde{X}_2\tilde{X}_2^\mathrm{T})=\Sigma_{22}\),\(\mathrm{E}(\tilde{X}_2\tilde{X}_1^\mathrm{T})=\Sigma_{21}\),\(\mathrm{E}(\tilde{X}_1\tilde{X}_1^\mathrm{T})=\Sigma_{11}\),化简后所有交叉项抵消,最终得:
\[\mathrm{Var}(Z) = \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \]证明完毕。
性质6:条件分布的正态性
多元正态的条件分布仍为正态分布,且:
且 \(X_1\) 与 \(X_2 - \mathrm{E}(X_2|X_1)\) 独立。
证明
由性质5,\(X_2 = Z + \Sigma_{21}\Sigma_{11}^{-1}X_1\),且 \(X_1\) 与 \(Z\) 独立,\(Z\sim N\left( \mu_2 - \Sigma_{21}\Sigma_{11}^{-1}\mu_1, \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \right)\)。
当给定 \(X_1=x_1\) 时,\(x_1\) 为常数,因此 \(X_2|X_1=x_1\) 的分布等于 \(Z + \Sigma_{21}\Sigma_{11}^{-1}x_1\) 的分布,由正态分布的线性不变性,该分布仍为正态分布。
-
条件均值:
\[\mathrm{E}(X_2|X_1=x_1) = \mathrm{E}(Z) + \Sigma_{21}\Sigma_{11}^{-1}x_1 = \mu_2 - \Sigma_{21}\Sigma_{11}^{-1}\mu_1 + \Sigma_{21}\Sigma_{11}^{-1}x_1 = \mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(x_1 - \mu_1) \]将 \(x_1\) 替换为随机变量 \(X_1\),即得 \(\mathrm{E}(X_2|X_1) = \mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(X_1 - \mu_1)\)。
-
条件方差:
条件方差与 \(x_1\) 无关,等于 \(Z\) 的方差:\[\mathrm{Var}(X_2|X_1=x_1) = \mathrm{Var}(Z) = \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \] -
独立性证明:
\(X_2 - \mathrm{E}(X_2|X_1) = Z - \mathrm{E}(Z)\),与 \(Z\) 仅差常数,而 \(X_1\) 与 \(Z\) 独立,故 \(X_1\) 与 \(X_2 - \mathrm{E}(X_2|X_1)\) 独立,证明完毕。
五、退化多元正态分布的谱分解与表示定理
1. 实对称矩阵的谱分解
设 \(\Sigma\) 为 \(n\times n\) 对称半正定矩阵,秩 \(\mathrm{rk}(\Sigma)=r<n\),则必存在n阶正交矩阵 \(\Gamma\),使得:
其中 \(\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\dots,\lambda_r)\) 为 \(\Sigma\) 的正特征值构成的对角矩阵,0为 \((n-r)\times(n-r)\) 零矩阵。
将 \(\Gamma\) 按列分块为 \(\Gamma=(\Gamma_1,\Gamma_2)\),其中 \(\Gamma_1\) 为 \(n\times r\) 矩阵(对应正特征值的特征向量),\(\Gamma_2\) 为 \(n\times(n-r)\) 矩阵(对应零特征值的特征向量),则 \(\Sigma\) 可表示为:
其中 \(\gamma_i\) 为 \(\Gamma_1\) 的第i列(单位特征向量)。
2. 退化多元正态的表示定理(定理1.3.2)
若 \(Y\sim N(\mu,\Sigma)\),\(\mathrm{rk}(\Sigma)=r<n\),则 \(Y\) 可表示为:
其中:
- \(Z_1\sim N(0,\Lambda)\)(r维非退化正态),\(Z_2\) 满足 \(P(Z_2=0)=1\)(退化分布);
- \(W\sim N(0,I_r)\),\(B=\Gamma_1\Lambda^{1/2}\)。
证明
-
构造正交变换 \(Z = \Gamma^\mathrm{T}(Y-\mu)\),即 \(Y = \mu + \Gamma Z\)。
由线性变换不变性,\(Z\) 为n维正态分布,其均值与协方差为:\[\mathrm{E}(Z) = 0, \quad \mathrm{Var}(Z) = \Gamma^\mathrm{T}\Sigma\Gamma = \mathrm{diag}(\Lambda, 0) \]因此 \(Z=\begin{pmatrix} Z_1 \\ Z_2 \end{pmatrix} \sim N\left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} \Lambda & 0 \\ 0 & 0 \end{pmatrix} \right)\),即 \(Z_1\sim N(0,\Lambda)\),\(Z_2\) 服从退化分布 \(P(Z_2=0)=1\)。
代入 \(Y\) 的表达式得:
\[Y = \mu + (\Gamma_1,\Gamma_2)\begin{pmatrix} Z_1 \\ Z_2 \end{pmatrix} = \mu + \Gamma_1 Z_1 + \Gamma_2 Z_2 \] -
构造低维表示:
令 \(W = \Lambda^{-1/2}Z_1\),由线性变换不变性,\(W\sim N(0,I_r)\),因此 \(Z_1=\Lambda^{1/2}W\),代入得:\[Y = \mu + \Gamma_1\Lambda^{1/2}W = \mu + BW \]其中 \(B=\Gamma_1\Lambda^{1/2}\),\(W\sim N(0,I_r)\),证明完毕。
定理意义:退化多元正态分布本质是低维非退化正态分布在n维空间的线性嵌入,其取值几乎处处落在由 \(\Gamma_1\) 张成的r维线性子空间中。
多元正态分布知识点完整归纳表
以下表格系统梳理多元正态分布的定义、核心公式、关键性质、特殊结论,所有内容与前文推导严格对应,兼顾严谨性与可读性。
表1 基础定义与核心参数
| 核心对象 | 符号/表达式 | 定义与数学描述 | 关键性质与说明 |
|---|---|---|---|
| n维随机向量 | \(X=(X_1,X_2,\dots,X_n)^\mathrm{T}\) | 由n个随机变量构成的列向量,是多元正态分布的研究主体 | 所有运算均遵循线性代数矩阵运算法则,默认列向量 |
| 均值向量 | \(\mu = \mathrm{E}(X) = (\mu_1,\mu_2,\dots,\mu_n)^\mathrm{T}\) | 分量为对应随机变量的数学期望:\(\mu_i=\mathrm{E}(X_i)\) | 刻画随机向量的中心位置,是分布的一阶矩 |
| 协方差矩阵 | \(\Sigma = \mathrm{Var}(X) = (\sigma_{ij})_{n\times n}\) | 元素为分量间的协方差:\(\sigma_{ij}=\mathrm{Cov}(X_i,X_j)=\mathrm{E}\left[(X_i-\mu_i)(X_j-\mu_j)\right]\) | 1. 必为对称半正定矩阵(\(\Sigma^\mathrm{T}=\Sigma\),\(\forall a\in\mathbb{R}^n, a^\mathrm{T}\Sigma a\geq0\)); 2. 对角线元素 \(\sigma_{ii}=\mathrm{Var}(X_i)\),刻画分量自身的波动; 3. 非对角线元素刻画分量间的线性相关程度 |
| 非退化多元正态分布 | \(X\sim N(\mu,\Sigma), \Sigma>0\) | 协方差矩阵为正定矩阵(所有特征值严格大于0,可逆) | 存在唯一的概率密度函数,分布支撑集为全空间 \(\mathbb{R}^n\) |
| 退化多元正态分布 | \(X\sim N(\mu,\Sigma), \Sigma\geq0\) | 协方差矩阵为半正定矩阵,秩 \(\mathrm{rk}(\Sigma)=r<n\) | 无概率密度函数,分布支撑集为 \(\mathbb{R}^n\) 中的r维线性子空间,需通过特征函数定义 |
表2 核心函数(密度函数与特征函数)
| 函数类型 | 核心表达式 | 适用条件 | 关键说明与推导核心 |
|---|---|---|---|
| 概率密度函数 | \(f(x) = \left( \frac{1}{\sqrt{2\pi}} \right)^n |\Sigma|^{-\frac{1}{2}} \exp\left\{ -\frac{1}{2}(x - \mu)^\mathrm{T} \Sigma^{-1} (x - \mu) \right\}\) | 仅适用于非退化多元正态分布(\(\Sigma>0\),可逆) | 1. 由n维标准正态分布经可逆线性变换推导而来; 2. \(|\Sigma|\) 为协方差矩阵的行列式,$ |
| 特征函数 | \(\varphi(t) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} X^\mathrm{T} t} \right) = \exp\left\{ \mathrm{i}\mu^\mathrm{T} t - \frac{1}{2} t^\mathrm{T} \Sigma t \right\}\) | 通用,退化/非退化多元正态分布均适用 | 1. 是多元正态分布最核心的刻画工具,分布由特征函数唯一确定; 2. 由此可推出:多元正态分布完全由前二阶矩(均值μ、协方差Σ)唯一决定; 3. \(t=(t_1,t_2,\dots,t_n)^\mathrm{T}\in\mathbb{R}^n\) 为任意实向量,\(\mathrm{i}\) 为虚数单位 |
表3 多元正态分布核心性质汇总
| 性质分类 | 核心结论 | 严格数学表述 | 关键备注与易错点 |
|---|---|---|---|
| 线性变换不变性 | 多元正态随机向量的任意线性变换仍服从多元正态分布 | 设 \(X\sim N(\mu,\Sigma)\),\(A\) 为 \(m\times n\) 常数矩阵,\(b\) 为m维常数向量,则: $$Y = AX + b \sim N(A\mu + b, A\Sigma A^\mathrm{T})$$ |
1. 特例:\(\Sigma\) 正定时,\(\Sigma^{-1/2}(X-\mu) \sim N(0,I_n)\)(n维标准正态); 2. 是多元正态最核心的性质,几乎所有结论均由此推导 |
| 等价定义 | 随机向量服从多元正态,当且仅当其任意线性组合服从一元正态 | \(X\sim N(\mu,\Sigma) \iff \forall a\in\mathbb{R}^n, a^\mathrm{T}X \sim N(a^\mathrm{T}\mu, a^\mathrm{T}\Sigma a)\) | 易错点:仅各分量服从正态,无法推出联合正态,必须满足任意线性组合均为正态 |
| 矩性质 | 零均值正态向量的奇阶混合矩为0,四阶混合矩有固定展开式 | 设 \(\tilde{X}=X-\mu\)(零均值化),则: 1. 三阶矩:\(\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k) = 0\); 2. 四阶矩:\(\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k \tilde{X}_l) = \sigma_{ij}\sigma_{kl} + \sigma_{ik}\sigma_{jl} + \sigma_{il}\sigma_{kj}\) |
1. 正态分布关于均值对称,所有奇阶中心矩均为0; 2. 四阶矩公式由Wick定理推导,是正态分布的标志性矩性质 |
| 独立与不相关等价性 | 多元正态分布的子向量独立,当且仅当子向量间不相关(协方差为0) | 设 \(X=\begin{pmatrix} X_1 \\ X_2 \end{pmatrix}\sim N(\mu,\Sigma)\),则: $$X_1与X_2独立 \iff \Sigma_{12}=\mathrm{Cov}(X_1,X_2)=0$$ |
1. 该性质仅对多元正态分布成立,一般分布中“独立必不相关,不相关未必独立”; 2. 推广:\(Y=AX\) 与 \(Z=BX\) 独立 \(\iff \mathrm{Cov}(Y,Z)=A\Sigma B^\mathrm{T}=0\) |
| 边缘分布性质 | 多元正态分布的任意边缘分布仍为正态分布 | 设 \(X=\begin{pmatrix} X_1 \\ X_2 \end{pmatrix}\sim N\left( \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix} \right)\),则: $$X_1\sim N(\mu_1,\Sigma_{11}), \quad X_2\sim N(\mu_2,\Sigma_{22})$$ |
边缘分布仅保留对应子向量的均值与协方差,与交叉项 \(\Sigma_{12}\) 无关 |
表4 分块多元正态分布的条件分布与投影结论
| 结论类型 | 核心公式 | 关键说明 |
|---|---|---|
| 条件期望(回归方程) | \(\mathrm{E}(X_2|X_1) = \mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(X_1 - \mu_1)\) | 1. 是线性回归的理论基础,条件期望为 \(X_1\) 的线性函数; 2. \(\Sigma_{21}\Sigma_{11}^{-1}\) 称为回归系数矩阵 |
| 条件方差 | \(\mathrm{Var}(X_2|X_1) = \Sigma_{22\cdot1} = \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\) | 1. 条件方差与 \(X_1\) 的取值无关,为常数矩阵; 2. 恒有 \(\mathrm{Var}(X_2|X_1) \leq \mathrm{Var}(X_2)\)(半正定意义下),即条件信息降低了随机波动 |
| 条件分布正态性 | \(X_2|X_1 \sim N\left( \mathrm{E}(X_2|X_1), \mathrm{Var}(X_2|X_1) \right)\) | 多元正态的条件分布仍为正态分布,是时间序列、贝叶斯统计的核心基础 |
| 正交投影独立性 | 设 \(Z = X_2 - \Sigma_{21}\Sigma_{11}^{-1}X_1\),则 \(X_1\) 与 \(Z\) 独立 | 1. \(Z\) 是 \(X_2\) 在 \(X_1\) 上的正交投影残差,与 \(X_1\) 不相关,正态下等价于独立; 2. 是条件分布推导的核心依据 |
表5 退化多元正态分布核心结论
| 模块 | 核心内容 | 数学表述 | 关键意义 |
|---|---|---|---|
| 协方差矩阵谱分解 | 半正定对称矩阵可分解为特征值与特征向量的乘积和 | 设 \(\mathrm{rk}(\Sigma)=r<n\),存在正交矩阵 \(\Gamma=(\Gamma_1,\Gamma_2)\),使得: $$\Sigma = \Gamma_1\Lambda\Gamma_1^\mathrm{T} = \sum_{i=1}^r \lambda_i \gamma_i \gamma_i^\mathrm{T}$$ 其中 \(\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_r)\) 为正特征值对角矩阵,\(\Gamma_1\) 为对应特征向量矩阵 |
将退化协方差矩阵分解为低维满秩矩阵,实现降维表示 |
| 退化正态表示定理 | 退化多元正态可表示为低维非退化正态的线性变换 | 设 \(Y\sim N(\mu,\Sigma), \mathrm{rk}(\Sigma)=r<n\),则: $$Y = \mu + BW, \quad W\sim N(0,I_r), B=\Gamma_1\Lambda^{1/2}$$ |
1. 证明退化正态本质是r维非退化正态在n维空间的线性嵌入; 2. 解决了退化分布无密度函数的表示问题,是高维统计、随机过程的核心工具 |
| 退化分布支撑集 | 退化正态的取值几乎处处落在r维线性子空间 | \(Y-\mu\) 几乎处处落在由 \(\Gamma_1\) 张成的r维线性子空间中,\(P(Y\in \mu + \mathrm{span}(\Gamma_1))=1\) | 解释了退化分布无密度的原因:在n维全空间上的勒贝格测度为0 |
posted on 2026-02-20 09:01 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号