昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

1.3多元正态分布

多元正态分布知识点详解与完整推导证明

我从定义溯源、核心公式推导、性质证明、退化情形拓展四个维度,系统讲解多元正态分布的完整知识体系,所有推导均严格遵循概率论与线性代数的基本公理,步骤详尽可追溯。


一、基础定义与核心符号说明

\(X=(X_1,X_2,\dots,X_n)^\mathrm{T}\)n维随机列向量,我们先明确核心参数的定义:

  1. 均值向量\(\mu = \mathrm{E}(X) = (\mathrm{E}(X_1),\mathrm{E}(X_2),\dots,\mathrm{E}(X_n))^\mathrm{T} = (\mu_1,\mu_2,\dots,\mu_n)^\mathrm{T}\),刻画随机向量的中心位置;
  2. 协方差矩阵\(\Sigma = \mathrm{Var}(X) = \mathrm{E}\left[(X-\mu)(X-\mu)^\mathrm{T}\right] = (\sigma_{ij})_{n\times n}\),其中 \(\sigma_{ij}=\mathrm{Cov}(X_i,X_j)=\mathrm{E}\left[(X_i-\mu_i)(X_j-\mu_j)\right]\)
    • 协方差矩阵必为对称半正定矩阵(记为 \(\Sigma\geq0\)),满足 \(\Sigma^\mathrm{T}=\Sigma\),且对任意n维实向量 \(a\),有 \(a^\mathrm{T}\Sigma a\geq0\)
    • \(\Sigma\) 为正定矩阵(记为 \(\Sigma>0\),即所有特征值严格大于0)时,分布为非退化多元正态分布,存在概率密度函数;
    • \(\Sigma\) 为半正定矩阵(\(\mathrm{rk}(\Sigma)=r<n\))时,分布为退化多元正态分布,无密度函数,需通过特征函数定义。

二、非退化多元正态分布的密度函数推导(式1.3.5)

非退化多元正态分布的密度函数为:

\[f(x) = \left( \frac{1}{\sqrt{2\pi}} \right)^n |\Sigma|^{-\frac{1}{2}} \exp\left\{ -\frac{1}{2}(x - \mu)^\mathrm{T} \Sigma^{-1} (x - \mu) \right\} \]

我们从n维标准正态分布出发,通过线性变换完成严格推导:

步骤1:n维标准正态分布的密度

\(Z=(Z_1,Z_2,\dots,Z_n)^\mathrm{T}\),其中 \(Z_1,Z_2,\dots,Z_n\) 独立同分布于标准正态分布 \(N(0,1)\),则称 \(Z\) 服从n维标准正态分布,记为 \(Z\sim N(0,I_n)\)\(I_n\) 为n阶单位矩阵)。

由独立性,联合密度为各边际密度的乘积:

\[f_Z(z) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{z_i^2}{2} \right) = \left( \frac{1}{\sqrt{2\pi}} \right)^n \exp\left( -\frac{1}{2} z^\mathrm{T} z \right) \]

步骤2:构造一般正态分布的线性变换

对于正定对称矩阵 \(\Sigma\),由线性代数的Cholesky分解(或谱分解),存在可逆矩阵 \(A\),使得 \(\Sigma = AA^\mathrm{T}\)

构造线性变换:

\[X = \mu + AZ \]

我们先验证其均值与协方差:

  • 均值:\(\mathrm{E}(X) = \mathrm{E}(\mu + AZ) = \mu + A\mathrm{E}(Z) = \mu\),符合定义;
  • 协方差:\(\mathrm{Var}(X) = \mathrm{Var}(\mu + AZ) = A\mathrm{Var}(Z)A^\mathrm{T} = AI_nA^\mathrm{T} = AA^\mathrm{T} = \Sigma\),符合定义。

步骤3:随机向量线性变换的密度公式

对于可逆线性变换 \(X = \mu + AZ\),其逆变换为 \(Z = A^{-1}(X-\mu)\)

根据多元随机变量的变量替换公式,\(X\) 的密度满足:

\[f_X(x) = f_Z\left( A^{-1}(x-\mu) \right) \cdot \left| \det\left( \frac{\partial Z}{\partial X} \right) \right| \]

其中 \(\left| \det\left( \frac{\partial Z}{\partial X} \right) \right|\) 是逆变换的雅可比行列式的绝对值。

步骤4:化简雅可比行列式与指数项

  1. 雅可比行列式化简
    正变换的雅可比矩阵为 \(\frac{\partial X}{\partial Z}=A\),因此逆变换的雅可比行列式为:

    \[\left| \det\left( \frac{\partial Z}{\partial X} \right) \right| = \left| \det(A^{-1}) \right| = \frac{1}{|\det(A)|} \]

    \(\Sigma=AA^\mathrm{T}\),得 \(\det(\Sigma)=\det(A)\det(A^\mathrm{T})=[\det(A)]^2\),因此 \(|\det(A)|=\sqrt{\det(\Sigma)}=|\Sigma|^{1/2}\),代入得:

    \[\left| \det\left( \frac{\partial Z}{\partial X} \right) \right| = |\Sigma|^{-1/2} \]

  2. 指数项化简
    \(Z=A^{-1}(x-\mu)\) 代入标准正态密度的指数部分:

    \[-\frac{1}{2} z^\mathrm{T} z = -\frac{1}{2} \left( A^{-1}(x-\mu) \right)^\mathrm{T} \left( A^{-1}(x-\mu) \right) \]

    由矩阵转置性质 \((AB)^\mathrm{T}=B^\mathrm{T}A^\mathrm{T}\),得:

    \[\left( A^{-1}(x-\mu) \right)^\mathrm{T} \left( A^{-1}(x-\mu) \right) = (x-\mu)^\mathrm{T} (A^{-1})^\mathrm{T} A^{-1} (x-\mu) \]

    又由 \(\Sigma^{-1}=(AA^\mathrm{T})^{-1}=(A^\mathrm{T})^{-1}A^{-1}=(A^{-1})^\mathrm{T}A^{-1}\),因此指数项最终化简为:

    \[-\frac{1}{2} (x-\mu)^\mathrm{T} \Sigma^{-1} (x-\mu) \]

步骤5:合并得到密度函数

将雅可比行列式与指数项代入密度公式,最终得到:

\[f(x) = \left( \frac{1}{\sqrt{2\pi}} \right)^n |\Sigma|^{-\frac{1}{2}} \exp\left\{ -\frac{1}{2}(x - \mu)^\mathrm{T} \Sigma^{-1} (x - \mu) \right\} \]

推导完毕。


三、多元正态分布的特征函数推导(式1.3.6)

特征函数是刻画随机分布的核心工具,对退化/非退化多元正态分布均适用,其定义为:

\[\varphi(t) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} X^\mathrm{T} t} \right) = \exp\left\{ \mathrm{i}\mu^\mathrm{T} t - \frac{1}{2} t^\mathrm{T} \Sigma t \right\} \]

其中 \(t=(t_1,t_2,\dots,t_n)^\mathrm{T}\) 为n维实向量,\(\mathrm{i}\) 为虚数单位。

推导过程

  1. 对任意半正定矩阵 \(\Sigma\),均可做谱分解 \(\Sigma=AA^\mathrm{T}\)\(A\)\(n\times n\) 矩阵,无需可逆),因此任意多元正态随机向量均可表示为 \(X=\mu + AZ\),其中 \(Z\sim N(0,I_n)\)

  2. 代入特征函数定义:

    \[\varphi(t) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} t^\mathrm{T} X} \right) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} t^\mathrm{T} (\mu + AZ)} \right) = \mathrm{e}^{\mathrm{i} t^\mathrm{T} \mu} \cdot \mathrm{E}\left( \mathrm{e}^{\mathrm{i} (A^\mathrm{T} t)^\mathrm{T} Z} \right) \]

  3. 计算标准正态向量的特征函数:
    \(u=A^\mathrm{T} t\),则 \(\mathrm{E}\left( \mathrm{e}^{\mathrm{i} u^\mathrm{T} Z} \right) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} \sum_{k=1}^n u_k Z_k} \right)\)
    \(Z_k\) 独立,期望可拆分为乘积:

    \[\mathrm{E}\left( \mathrm{e}^{\mathrm{i} \sum_{k=1}^n u_k Z_k} \right) = \prod_{k=1}^n \mathrm{E}\left( \mathrm{e}^{\mathrm{i} u_k Z_k} \right) \]

    一维标准正态的特征函数为 \(\mathrm{E}\left( \mathrm{e}^{\mathrm{i} u_k Z_k} \right) = \exp\left( -\frac{u_k^2}{2} \right)\),因此:

    \[\prod_{k=1}^n \exp\left( -\frac{u_k^2}{2} \right) = \exp\left( -\frac{1}{2} \sum_{k=1}^n u_k^2 \right) = \exp\left( -\frac{1}{2} u^\mathrm{T} u \right) \]

  4. 回代化简:
    \(u=A^\mathrm{T} t\) 代入,得 \(u^\mathrm{T} u = (A^\mathrm{T} t)^\mathrm{T} (A^\mathrm{T} t) = t^\mathrm{T} AA^\mathrm{T} t = t^\mathrm{T} \Sigma t\)

  5. 合并得到特征函数:

    \[\varphi(t) = \mathrm{e}^{\mathrm{i} \mu^\mathrm{T} t} \cdot \exp\left( -\frac{1}{2} t^\mathrm{T} \Sigma t \right) = \exp\left\{ \mathrm{i}\mu^\mathrm{T} t - \frac{1}{2} t^\mathrm{T} \Sigma t \right\} \]

    推导完毕。

核心结论:多元正态分布完全由其均值向量 \(\mu\) 和协方差矩阵 \(\Sigma\) 决定(分布由特征函数唯一确定),因此也被称为“二阶矩分布”。


四、多元正态分布核心性质的严格证明

性质1:矩性质

\(\tilde{X}=X-\mu\)(零均值化的正态向量),则:

  1. 三阶混合矩:\(\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k) = 0\)
  2. 四阶混合矩:\(\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k \tilde{X}_l) = \sigma_{ij}\sigma_{kl} + \sigma_{ik}\sigma_{jl} + \sigma_{il}\sigma_{kj}\)

证明

\(\tilde{X}=AZ\)\(Z\sim N(0,I_n)\)),得 \(\tilde{X}_i = \sum_{m=1}^n a_{im} Z_m\)\(a_{im}\) 为矩阵 \(A\) 的第i行第m列元素)。

  1. 三阶矩证明
    展开得:

    \[\tilde{X}_i \tilde{X}_j \tilde{X}_k = \sum_{m,l,p=1}^n a_{im}a_{jl}a_{kp} Z_m Z_l Z_p \]

    取期望得:

    \[\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k) = \sum_{m,l,p=1}^n a_{im}a_{jl}a_{kp} \mathrm{E}(Z_m Z_l Z_p) \]

    标准正态分布关于0对称,所有奇阶矩均为0

    • \(m,l,p\) 中有任意一个指标单独出现,\(\mathrm{E}(Z_m Z_l Z_p)=\mathrm{E}(Z_·)\cdot\mathrm{E}(\cdot)=0\)
    • \(m=l=p\)\(\mathrm{E}(Z_m^3)=0\)(奇函数在对称区间积分为0)。
      因此所有项均为0,故 \(\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k) = 0\)
  2. 四阶矩证明
    展开得:

    \[\tilde{X}_i \tilde{X}_j \tilde{X}_k \tilde{X}_l = \sum_{m,n,p,q=1}^n a_{im}a_{jn}a_{kp}a_{lq} Z_m Z_n Z_p Z_q \]

    取期望得:

    \[\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k \tilde{X}_l) = \sum_{m,n,p,q=1}^n a_{im}a_{jn}a_{kp}a_{lq} \mathrm{E}(Z_m Z_n Z_p Z_q) \]

    由正态分布的Wick定理(零均值正态变量的矩定理),四阶矩仅当指标两两配对时非零,即:

    \[\mathrm{E}(Z_m Z_n Z_p Z_q) = \delta_{mn}\delta_{pq} + \delta_{mp}\delta_{nq} + \delta_{mq}\delta_{np} \]

    其中 \(\delta_{ab}\) 为克罗内克函数(\(a=b\) 时为1,否则为0)。

    将其拆分为三项求和:

    • 第一项:\(\sum_{m,p} a_{im}a_{jm}a_{kp}a_{lp} = \left( \sum_m a_{im}a_{jm} \right)\left( \sum_p a_{kp}a_{lp} \right) = (AA^\mathrm{T})_{ij}(AA^\mathrm{T})_{kl} = \sigma_{ij}\sigma_{kl}\)
    • 第二项:\(\sum_{m,n} a_{im}a_{jn}a_{km}a_{ln} = \left( \sum_m a_{im}a_{km} \right)\left( \sum_n a_{jn}a_{ln} \right) = (AA^\mathrm{T})_{ik}(AA^\mathrm{T})_{jl} = \sigma_{ik}\sigma_{jl}\)
    • 第三项:\(\sum_{m,n} a_{im}a_{jn}a_{kn}a_{lm} = \left( \sum_m a_{im}a_{lm} \right)\left( \sum_n a_{jn}a_{kn} \right) = (AA^\mathrm{T})_{il}(AA^\mathrm{T})_{jk} = \sigma_{il}\sigma_{kj}\)

    三项合并即得:

    \[\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k \tilde{X}_l) = \sigma_{ij}\sigma_{kl} + \sigma_{ik}\sigma_{jl} + \sigma_{il}\sigma_{kj} \]

    证明完毕。


性质2:线性变换不变性

\(X\sim N(\mu,\Sigma)\)\(A\)\(m\times n\) 常数矩阵,\(b\) 为m维常数向量,则:

\[Y = AX + b \sim N(A\mu + b, A\Sigma A^\mathrm{T}) \]

特别地,若 \(\Sigma\) 正定,则 \(\Sigma^{-1/2}(X-\mu) \sim N(0,I_n)\)

证明

我们通过特征函数唯一性证明:
\(Y\) 的特征函数为:

\[\varphi_Y(s) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} s^\mathrm{T} Y} \right) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} s^\mathrm{T} (AX + b)} \right) = \mathrm{e}^{\mathrm{i} s^\mathrm{T} b} \cdot \mathrm{E}\left( \mathrm{e}^{\mathrm{i} (A^\mathrm{T} s)^\mathrm{T} X} \right) \]

代入 \(X\) 的特征函数 \(\varphi_X(t)=\exp\left( \mathrm{i}\mu^\mathrm{T} t - \frac{1}{2}t^\mathrm{T}\Sigma t \right)\),令 \(t=A^\mathrm{T} s\),得:

\[\varphi_Y(s) = \mathrm{e}^{\mathrm{i} s^\mathrm{T} b} \cdot \exp\left( \mathrm{i}\mu^\mathrm{T} A^\mathrm{T} s - \frac{1}{2} s^\mathrm{T} A \Sigma A^\mathrm{T} s \right) \]

整理得:

\[\varphi_Y(s) = \exp\left( \mathrm{i}(A\mu + b)^\mathrm{T} s - \frac{1}{2} s^\mathrm{T} (A\Sigma A^\mathrm{T}) s \right) \]

该式正是m维正态分布 \(N(A\mu + b, A\Sigma A^\mathrm{T})\) 的特征函数,由特征函数唯一性,\(Y\sim N(A\mu + b, A\Sigma A^\mathrm{T})\)

特别情形证明
\(\Sigma\) 正定时,\(\Sigma^{-1/2}\) 为对称可逆矩阵,满足 \(\Sigma^{-1/2}\Sigma\Sigma^{-1/2}=I_n\)。令 \(A=\Sigma^{-1/2}\)\(b=-\Sigma^{-1/2}\mu\),则:

\[Y=\Sigma^{-1/2}(X-\mu) = AX + b \]

由线性变换性质,\(Y\) 的均值为 \(A\mu + b = 0\),协方差为 \(A\Sigma A^\mathrm{T}=I_n\),故 \(Y\sim N(0,I_n)\),证明完毕。


性质3:多元正态的等价定义

\(X\) 服从n维多元正态分布的充要条件是:对任意n维实向量 \(a\)\(a^\mathrm{T}X\) 服从一元正态分布。

证明

  1. 必要性(\(\Rightarrow\)
    \(X\sim N(\mu,\Sigma)\),令 \(Y=a^\mathrm{T}X\),由性质2(线性变换不变性),\(Y\) 服从一元正态分布,均值为 \(a^\mathrm{T}\mu\),方差为 \(a^\mathrm{T}\Sigma a\),必要性得证。

  2. 充分性(\(\Leftarrow\)
    若对任意 \(a\)\(a^\mathrm{T}X\) 服从一元正态分布,则 \(X\) 的各分量一阶、二阶矩均存在,记 \(\mathrm{E}(X)=\mu\)\(\mathrm{Var}(X)=\Sigma\)

    对任意n维向量 \(t\),令 \(Y=t^\mathrm{T}X\),由条件 \(Y\sim N(t^\mathrm{T}\mu, t^\mathrm{T}\Sigma t)\),其特征函数为:

    \[\varphi_Y(s) = \exp\left( \mathrm{i} s \cdot t^\mathrm{T}\mu - \frac{1}{2} s^2 \cdot t^\mathrm{T}\Sigma t \right) \]

    \(s=1\),则 \(\varphi_Y(1)=\mathrm{E}\left( \mathrm{e}^{\mathrm{i} t^\mathrm{T} X} \right)=\varphi_X(t)\),即 \(X\) 的特征函数为:

    \[\varphi_X(t) = \exp\left( \mathrm{i} \mu^\mathrm{T} t - \frac{1}{2} t^\mathrm{T}\Sigma t \right) \]

    该式正是n维多元正态分布的特征函数,故 \(X\sim N(\mu,\Sigma)\),充分性得证。

关键注记:该性质不能弱化为“\(X\) 的每个分量都是正态分布”——分量正态无法推出联合正态,必须任意线性组合均为正态,才能保证联合正态。


性质4:边缘分布与独立-不相关等价性

\(X\) 分块为 \(X=\begin{pmatrix} X_1 \\ X_2 \end{pmatrix}\),对应均值 \(\mu=\begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}\),协方差矩阵 \(\Sigma=\begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}\)\(\Sigma_{21}=\Sigma_{12}^\mathrm{T}\)),则:

  1. 边缘分布:\(X_1\sim N(\mu_1,\Sigma_{11})\)\(X_2\sim N(\mu_2,\Sigma_{22})\)
  2. 独立等价性:\(X_1\)\(X_2\) 独立的充要条件是 \(\Sigma_{12}=\mathrm{Cov}(X_1,X_2)=0\)(即不相关);
  3. 线性变换独立条件:\(Y=AX\)\(Z=BX\) 独立的充要条件是 \(\mathrm{Cov}(Y,Z)=A\Sigma B^\mathrm{T}=0\)

证明

  1. 边缘分布证明
    \(X\) 的特征函数为:

    \[\varphi_X(t_1,t_2) = \exp\left( \mathrm{i}\mu_1^\mathrm{T}t_1 + \mathrm{i}\mu_2^\mathrm{T}t_2 - \frac{1}{2}t_1^\mathrm{T}\Sigma_{11}t_1 - \frac{1}{2}t_2^\mathrm{T}\Sigma_{22}t_2 - t_1^\mathrm{T}\Sigma_{12}t_2 \right) \]

    边缘特征函数满足 \(\varphi_{X_1}(t_1)=\varphi_X(t_1,0)\),令 \(t_2=0\),得:

    \[\varphi_{X_1}(t_1) = \exp\left( \mathrm{i}\mu_1^\mathrm{T}t_1 - \frac{1}{2}t_1^\mathrm{T}\Sigma_{11}t_1 \right) \]

    该式为 \(N(\mu_1,\Sigma_{11})\) 的特征函数,故 \(X_1\sim N(\mu_1,\Sigma_{11})\)。同理可证 \(X_2\sim N(\mu_2,\Sigma_{22})\)

  2. 独立-不相关等价性证明
    随机向量独立的充要条件是联合特征函数等于边缘特征函数的乘积,即:

    \[\varphi_X(t_1,t_2) = \varphi_{X_1}(t_1)\varphi_{X_2}(t_2) \]

    代入表达式得:

    \[\exp\left( \mathrm{i}\mu_1^\mathrm{T}t_1 + \mathrm{i}\mu_2^\mathrm{T}t_2 - \frac{1}{2}t_1^\mathrm{T}\Sigma_{11}t_1 - \frac{1}{2}t_2^\mathrm{T}\Sigma_{22}t_2 - t_1^\mathrm{T}\Sigma_{12}t_2 \right) = \exp\left( \mathrm{i}\mu_1^\mathrm{T}t_1 - \frac{1}{2}t_1^\mathrm{T}\Sigma_{11}t_1 \right)\exp\left( \mathrm{i}\mu_2^\mathrm{T}t_2 - \frac{1}{2}t_2^\mathrm{T}\Sigma_{22}t_2 \right) \]

    等式成立当且仅当 \(\exp\left( -t_1^\mathrm{T}\Sigma_{12}t_2 \right)=1\) 对所有 \(t_1,t_2\) 成立,即 \(t_1^\mathrm{T}\Sigma_{12}t_2=0\) 对所有 \(t_1,t_2\) 成立,等价于 \(\Sigma_{12}=0\)

    \(\Sigma_{12}=\mathrm{Cov}(X_1,X_2)\)\(\Sigma_{12}=0\)\(X_1\)\(X_2\) 不相关,故独立与不相关等价,证明完毕。

  3. 线性变换独立条件证明
    \(Y=AX\)\(Z=BX\) 均为 \(X\) 的线性变换,故 \(\begin{pmatrix} Y \\ Z \end{pmatrix}=\begin{pmatrix} A \\ B \end{pmatrix}X\) 为多元正态分布。

    由上述结论,\(Y\)\(Z\) 独立的充要条件是 \(\mathrm{Cov}(Y,Z)=0\),而:

    \[\mathrm{Cov}(Y,Z) = \mathrm{E}\left[ (Y-\mathrm{E}(Y))(Z-\mathrm{E}(Z))^\mathrm{T} \right] = A\mathrm{E}\left[ (X-\mu)(X-\mu)^\mathrm{T} \right]B^\mathrm{T} = A\Sigma B^\mathrm{T} \]

    故充要条件为 \(A\Sigma B^\mathrm{T}=0\),证明完毕。


性质5:正交投影独立性

\(Z = X_2 - \Sigma_{21}\Sigma_{11}^{-1}X_1\),则 \(X_1\)\(Z\) 独立,且:

\[\mathrm{E}(Z) = \mu_2 - \Sigma_{21}\Sigma_{11}^{-1}\mu_1, \quad \mathrm{Var}(Z) = \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \]

证明

  1. 独立性证明
    \(X_1\)\(Z\) 均为 \(X\) 的线性变换,故联合为多元正态分布,只需证明 \(\mathrm{Cov}(X_1,Z)=0\)

    计算协方差:

    \[\mathrm{Cov}(X_1,Z) = \mathrm{Cov}\left( X_1, X_2 - \Sigma_{21}\Sigma_{11}^{-1}X_1 \right) = \mathrm{Cov}(X_1,X_2) - \mathrm{Cov}\left( X_1, \Sigma_{21}\Sigma_{11}^{-1}X_1 \right) \]

    由协方差性质 \(\mathrm{Cov}(X,AY)=A\mathrm{Cov}(X,Y)\),得:

    \[\mathrm{Cov}\left( X_1, \Sigma_{21}\Sigma_{11}^{-1}X_1 \right) = \Sigma_{21}\Sigma_{11}^{-1}\mathrm{Cov}(X_1,X_1) = \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{11} = \Sigma_{21} \]

    \(\mathrm{Cov}(X_1,X_2)=\Sigma_{12}=\Sigma_{21}^\mathrm{T}\),结合 \(\Sigma_{11}\) 对称,\(\Sigma_{11}^{-1}\) 对称,最终得:

    \[\mathrm{Cov}(X_1,Z) = \Sigma_{12} - \Sigma_{12} = 0 \]

    \(X_1\)\(Z\) 独立。

  2. 均值与方差计算
    均值:

    \[\mathrm{E}(Z) = \mathrm{E}(X_2) - \Sigma_{21}\Sigma_{11}^{-1}\mathrm{E}(X_1) = \mu_2 - \Sigma_{21}\Sigma_{11}^{-1}\mu_1 \]

    方差:
    \(\tilde{X}_1=X_1-\mu_1\)\(\tilde{X}_2=X_2-\mu_2\),则 \(Z-\mathrm{E}(Z)=\tilde{X}_2 - \Sigma_{21}\Sigma_{11}^{-1}\tilde{X}_1\),因此:

    \[\mathrm{Var}(Z) = \mathrm{E}\left[ (Z-\mathrm{E}(Z))(Z-\mathrm{E}(Z))^\mathrm{T} \right] \]

    展开得:

    \[= \mathrm{E}\left[ \tilde{X}_2\tilde{X}_2^\mathrm{T} - \tilde{X}_2\tilde{X}_1^\mathrm{T}(\Sigma_{21}\Sigma_{11}^{-1})^\mathrm{T} - \Sigma_{21}\Sigma_{11}^{-1}\tilde{X}_1\tilde{X}_2^\mathrm{T} + \Sigma_{21}\Sigma_{11}^{-1}\tilde{X}_1\tilde{X}_1^\mathrm{T}(\Sigma_{21}\Sigma_{11}^{-1})^\mathrm{T} \right] \]

    代入 \(\mathrm{E}(\tilde{X}_2\tilde{X}_2^\mathrm{T})=\Sigma_{22}\)\(\mathrm{E}(\tilde{X}_2\tilde{X}_1^\mathrm{T})=\Sigma_{21}\)\(\mathrm{E}(\tilde{X}_1\tilde{X}_1^\mathrm{T})=\Sigma_{11}\),化简后所有交叉项抵消,最终得:

    \[\mathrm{Var}(Z) = \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \]

    证明完毕。


性质6:条件分布的正态性

多元正态的条件分布仍为正态分布,且:

\[\mathrm{E}(X_2|X_1) = \mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(X_1 - \mu_1) \]

\[\mathrm{Var}(X_2|X_1) = \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \]

\(X_1\)\(X_2 - \mathrm{E}(X_2|X_1)\) 独立。

证明

由性质5,\(X_2 = Z + \Sigma_{21}\Sigma_{11}^{-1}X_1\),且 \(X_1\)\(Z\) 独立,\(Z\sim N\left( \mu_2 - \Sigma_{21}\Sigma_{11}^{-1}\mu_1, \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \right)\)

当给定 \(X_1=x_1\) 时,\(x_1\) 为常数,因此 \(X_2|X_1=x_1\) 的分布等于 \(Z + \Sigma_{21}\Sigma_{11}^{-1}x_1\) 的分布,由正态分布的线性不变性,该分布仍为正态分布。

  1. 条件均值

    \[\mathrm{E}(X_2|X_1=x_1) = \mathrm{E}(Z) + \Sigma_{21}\Sigma_{11}^{-1}x_1 = \mu_2 - \Sigma_{21}\Sigma_{11}^{-1}\mu_1 + \Sigma_{21}\Sigma_{11}^{-1}x_1 = \mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(x_1 - \mu_1) \]

    \(x_1\) 替换为随机变量 \(X_1\),即得 \(\mathrm{E}(X_2|X_1) = \mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(X_1 - \mu_1)\)

  2. 条件方差
    条件方差与 \(x_1\) 无关,等于 \(Z\) 的方差:

    \[\mathrm{Var}(X_2|X_1=x_1) = \mathrm{Var}(Z) = \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \]

  3. 独立性证明
    \(X_2 - \mathrm{E}(X_2|X_1) = Z - \mathrm{E}(Z)\),与 \(Z\) 仅差常数,而 \(X_1\)\(Z\) 独立,故 \(X_1\)\(X_2 - \mathrm{E}(X_2|X_1)\) 独立,证明完毕。


五、退化多元正态分布的谱分解与表示定理

1. 实对称矩阵的谱分解

\(\Sigma\)\(n\times n\) 对称半正定矩阵,秩 \(\mathrm{rk}(\Sigma)=r<n\),则必存在n阶正交矩阵 \(\Gamma\),使得:

\[\Gamma^\mathrm{T}\Sigma\Gamma = \mathrm{diag}(\Lambda, 0) \]

其中 \(\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\dots,\lambda_r)\)\(\Sigma\) 的正特征值构成的对角矩阵,0为 \((n-r)\times(n-r)\) 零矩阵。

\(\Gamma\) 按列分块为 \(\Gamma=(\Gamma_1,\Gamma_2)\),其中 \(\Gamma_1\)\(n\times r\) 矩阵(对应正特征值的特征向量),\(\Gamma_2\)\(n\times(n-r)\) 矩阵(对应零特征值的特征向量),则 \(\Sigma\) 可表示为:

\[\Sigma = \Gamma_1\Lambda\Gamma_1^\mathrm{T} = \sum_{i=1}^r \lambda_i \gamma_i \gamma_i^\mathrm{T} \]

其中 \(\gamma_i\)\(\Gamma_1\) 的第i列(单位特征向量)。

2. 退化多元正态的表示定理(定理1.3.2)

\(Y\sim N(\mu,\Sigma)\)\(\mathrm{rk}(\Sigma)=r<n\),则 \(Y\) 可表示为:

\[Y = \mu + \Gamma_1 Z_1 + \Gamma_2 Z_2 = \mu + BW \]

其中:

  • \(Z_1\sim N(0,\Lambda)\)(r维非退化正态),\(Z_2\) 满足 \(P(Z_2=0)=1\)(退化分布);
  • \(W\sim N(0,I_r)\)\(B=\Gamma_1\Lambda^{1/2}\)

证明

  1. 构造正交变换 \(Z = \Gamma^\mathrm{T}(Y-\mu)\),即 \(Y = \mu + \Gamma Z\)
    由线性变换不变性,\(Z\) 为n维正态分布,其均值与协方差为:

    \[\mathrm{E}(Z) = 0, \quad \mathrm{Var}(Z) = \Gamma^\mathrm{T}\Sigma\Gamma = \mathrm{diag}(\Lambda, 0) \]

    因此 \(Z=\begin{pmatrix} Z_1 \\ Z_2 \end{pmatrix} \sim N\left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} \Lambda & 0 \\ 0 & 0 \end{pmatrix} \right)\),即 \(Z_1\sim N(0,\Lambda)\)\(Z_2\) 服从退化分布 \(P(Z_2=0)=1\)

    代入 \(Y\) 的表达式得:

    \[Y = \mu + (\Gamma_1,\Gamma_2)\begin{pmatrix} Z_1 \\ Z_2 \end{pmatrix} = \mu + \Gamma_1 Z_1 + \Gamma_2 Z_2 \]

  2. 构造低维表示:
    \(W = \Lambda^{-1/2}Z_1\),由线性变换不变性,\(W\sim N(0,I_r)\),因此 \(Z_1=\Lambda^{1/2}W\),代入得:

    \[Y = \mu + \Gamma_1\Lambda^{1/2}W = \mu + BW \]

    其中 \(B=\Gamma_1\Lambda^{1/2}\)\(W\sim N(0,I_r)\),证明完毕。

定理意义:退化多元正态分布本质是低维非退化正态分布在n维空间的线性嵌入,其取值几乎处处落在由 \(\Gamma_1\) 张成的r维线性子空间中。


多元正态分布知识点完整归纳表

以下表格系统梳理多元正态分布的定义、核心公式、关键性质、特殊结论,所有内容与前文推导严格对应,兼顾严谨性与可读性。

表1 基础定义与核心参数

核心对象 符号/表达式 定义与数学描述 关键性质与说明
n维随机向量 \(X=(X_1,X_2,\dots,X_n)^\mathrm{T}\) 由n个随机变量构成的列向量,是多元正态分布的研究主体 所有运算均遵循线性代数矩阵运算法则,默认列向量
均值向量 \(\mu = \mathrm{E}(X) = (\mu_1,\mu_2,\dots,\mu_n)^\mathrm{T}\) 分量为对应随机变量的数学期望:\(\mu_i=\mathrm{E}(X_i)\) 刻画随机向量的中心位置,是分布的一阶矩
协方差矩阵 \(\Sigma = \mathrm{Var}(X) = (\sigma_{ij})_{n\times n}\) 元素为分量间的协方差:\(\sigma_{ij}=\mathrm{Cov}(X_i,X_j)=\mathrm{E}\left[(X_i-\mu_i)(X_j-\mu_j)\right]\) 1. 必为对称半正定矩阵\(\Sigma^\mathrm{T}=\Sigma\)\(\forall a\in\mathbb{R}^n, a^\mathrm{T}\Sigma a\geq0\));
2. 对角线元素 \(\sigma_{ii}=\mathrm{Var}(X_i)\),刻画分量自身的波动;
3. 非对角线元素刻画分量间的线性相关程度
非退化多元正态分布 \(X\sim N(\mu,\Sigma), \Sigma>0\) 协方差矩阵为正定矩阵(所有特征值严格大于0,可逆) 存在唯一的概率密度函数,分布支撑集为全空间 \(\mathbb{R}^n\)
退化多元正态分布 \(X\sim N(\mu,\Sigma), \Sigma\geq0\) 协方差矩阵为半正定矩阵,秩 \(\mathrm{rk}(\Sigma)=r<n\) 无概率密度函数,分布支撑集为 \(\mathbb{R}^n\) 中的r维线性子空间,需通过特征函数定义

表2 核心函数(密度函数与特征函数)

函数类型 核心表达式 适用条件 关键说明与推导核心
概率密度函数 \(f(x) = \left( \frac{1}{\sqrt{2\pi}} \right)^n |\Sigma|^{-\frac{1}{2}} \exp\left\{ -\frac{1}{2}(x - \mu)^\mathrm{T} \Sigma^{-1} (x - \mu) \right\}\) 仅适用于非退化多元正态分布\(\Sigma>0\),可逆) 1. 由n维标准正态分布经可逆线性变换推导而来;
2. \(|\Sigma|\) 为协方差矩阵的行列式,$
特征函数 \(\varphi(t) = \mathrm{E}\left( \mathrm{e}^{\mathrm{i} X^\mathrm{T} t} \right) = \exp\left\{ \mathrm{i}\mu^\mathrm{T} t - \frac{1}{2} t^\mathrm{T} \Sigma t \right\}\) 通用,退化/非退化多元正态分布均适用 1. 是多元正态分布最核心的刻画工具,分布由特征函数唯一确定;
2. 由此可推出:多元正态分布完全由前二阶矩(均值μ、协方差Σ)唯一决定;
3. \(t=(t_1,t_2,\dots,t_n)^\mathrm{T}\in\mathbb{R}^n\) 为任意实向量,\(\mathrm{i}\) 为虚数单位

表3 多元正态分布核心性质汇总

性质分类 核心结论 严格数学表述 关键备注与易错点
线性变换不变性 多元正态随机向量的任意线性变换仍服从多元正态分布 \(X\sim N(\mu,\Sigma)\)\(A\)\(m\times n\) 常数矩阵,\(b\) 为m维常数向量,则:
$$Y = AX + b \sim N(A\mu + b, A\Sigma A^\mathrm{T})$$
1. 特例:\(\Sigma\) 正定时,\(\Sigma^{-1/2}(X-\mu) \sim N(0,I_n)\)(n维标准正态);
2. 是多元正态最核心的性质,几乎所有结论均由此推导
等价定义 随机向量服从多元正态,当且仅当其任意线性组合服从一元正态 \(X\sim N(\mu,\Sigma) \iff \forall a\in\mathbb{R}^n, a^\mathrm{T}X \sim N(a^\mathrm{T}\mu, a^\mathrm{T}\Sigma a)\) 易错点:仅各分量服从正态,无法推出联合正态,必须满足任意线性组合均为正态
矩性质 零均值正态向量的奇阶混合矩为0,四阶混合矩有固定展开式 \(\tilde{X}=X-\mu\)(零均值化),则:
1. 三阶矩:\(\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k) = 0\)
2. 四阶矩:\(\mathrm{E}(\tilde{X}_i \tilde{X}_j \tilde{X}_k \tilde{X}_l) = \sigma_{ij}\sigma_{kl} + \sigma_{ik}\sigma_{jl} + \sigma_{il}\sigma_{kj}\)
1. 正态分布关于均值对称,所有奇阶中心矩均为0;
2. 四阶矩公式由Wick定理推导,是正态分布的标志性矩性质
独立与不相关等价性 多元正态分布的子向量独立,当且仅当子向量间不相关(协方差为0) \(X=\begin{pmatrix} X_1 \\ X_2 \end{pmatrix}\sim N(\mu,\Sigma)\),则:
$$X_1与X_2独立 \iff \Sigma_{12}=\mathrm{Cov}(X_1,X_2)=0$$
1. 该性质仅对多元正态分布成立,一般分布中“独立必不相关,不相关未必独立”;
2. 推广:\(Y=AX\)\(Z=BX\) 独立 \(\iff \mathrm{Cov}(Y,Z)=A\Sigma B^\mathrm{T}=0\)
边缘分布性质 多元正态分布的任意边缘分布仍为正态分布 \(X=\begin{pmatrix} X_1 \\ X_2 \end{pmatrix}\sim N\left( \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix} \right)\),则:
$$X_1\sim N(\mu_1,\Sigma_{11}), \quad X_2\sim N(\mu_2,\Sigma_{22})$$
边缘分布仅保留对应子向量的均值与协方差,与交叉项 \(\Sigma_{12}\) 无关

表4 分块多元正态分布的条件分布与投影结论

结论类型 核心公式 关键说明
条件期望(回归方程) \(\mathrm{E}(X_2|X_1) = \mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(X_1 - \mu_1)\) 1. 是线性回归的理论基础,条件期望为 \(X_1\) 的线性函数;
2. \(\Sigma_{21}\Sigma_{11}^{-1}\) 称为回归系数矩阵
条件方差 \(\mathrm{Var}(X_2|X_1) = \Sigma_{22\cdot1} = \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\) 1. 条件方差与 \(X_1\) 的取值无关,为常数矩阵;
2. 恒有 \(\mathrm{Var}(X_2|X_1) \leq \mathrm{Var}(X_2)\)(半正定意义下),即条件信息降低了随机波动
条件分布正态性 \(X_2|X_1 \sim N\left( \mathrm{E}(X_2|X_1), \mathrm{Var}(X_2|X_1) \right)\) 多元正态的条件分布仍为正态分布,是时间序列、贝叶斯统计的核心基础
正交投影独立性 \(Z = X_2 - \Sigma_{21}\Sigma_{11}^{-1}X_1\),则 \(X_1\)\(Z\) 独立 1. \(Z\)\(X_2\)\(X_1\) 上的正交投影残差,与 \(X_1\) 不相关,正态下等价于独立;
2. 是条件分布推导的核心依据

表5 退化多元正态分布核心结论

模块 核心内容 数学表述 关键意义
协方差矩阵谱分解 半正定对称矩阵可分解为特征值与特征向量的乘积和 \(\mathrm{rk}(\Sigma)=r<n\),存在正交矩阵 \(\Gamma=(\Gamma_1,\Gamma_2)\),使得:
$$\Sigma = \Gamma_1\Lambda\Gamma_1^\mathrm{T} = \sum_{i=1}^r \lambda_i \gamma_i \gamma_i^\mathrm{T}$$
其中 \(\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_r)\) 为正特征值对角矩阵,\(\Gamma_1\) 为对应特征向量矩阵
将退化协方差矩阵分解为低维满秩矩阵,实现降维表示
退化正态表示定理 退化多元正态可表示为低维非退化正态的线性变换 \(Y\sim N(\mu,\Sigma), \mathrm{rk}(\Sigma)=r<n\),则:
$$Y = \mu + BW, \quad W\sim N(0,I_r), B=\Gamma_1\Lambda^{1/2}$$
1. 证明退化正态本质是r维非退化正态在n维空间的线性嵌入;
2. 解决了退化分布无密度函数的表示问题,是高维统计、随机过程的核心工具
退化分布支撑集 退化正态的取值几乎处处落在r维线性子空间 \(Y-\mu\) 几乎处处落在由 \(\Gamma_1\) 张成的r维线性子空间中,\(P(Y\in \mu + \mathrm{span}(\Gamma_1))=1\) 解释了退化分布无密度的原因:在n维全空间上的勒贝格测度为0

posted on 2026-02-20 09:01  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航