昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

3.3.2指数族分布的最大似然估计

指数族分布的最大似然估计 完整讲解与推导

作为统计学中最核心的分布族之一,指数族分布涵盖了绝大多数常见的概率分布(正态、二项、泊松、多项、伽马等),其最大似然估计(MLE)具有统一的求解形式和优良的统计性质,下面我们从基础定义到定理证明、例题拆解,进行完整的讲解。


一、指数族分布的基础定义

1.1 单变量指数族分布

指数族分布的概率密度/质量函数(连续型为密度,离散型为质量函数,形式完全统一)的标准形式为:

\[X \sim f(x;\theta) = h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\} \]

符号 名称 核心含义与性质
\(\theta\) 自然参数/典范参数 k维列向量,是我们的待估参数,参数空间为\(\Theta \subset \mathbb{R}^k\)
\(T(x)\) 充分统计量 k维列向量,包含了样本中关于参数\(\theta\)的所有信息,是指数族的核心统计量
\(h(x)\) 基底函数 仅与观测值\(x\)有关,与参数\(\theta\)无关,求导时会被消去,不影响极值求解
\(b(\theta)\) 累积量生成函数/对数配分函数 仅与\(\theta\)有关,作用是保证密度函数的正则性(积分/求和为1),其各阶导数对应\(T(x)\)的各阶矩

1.2 独立同分布样本的联合指数族形式

若有n个独立同分布的样本\(X=(X_1,X_2,\dots,X_n)^T\),每个\(X_i\)服从上述指数族分布,则样本的联合密度函数为:

\[f(x;\theta) = \prod_{i=1}^n h(x_i) \exp\left\{ \theta^T \sum_{i=1}^n T(x_i) - n b(\theta) \right\} \]

该式依然满足指数族的标准形式,只需重新定义:

  • 新基底函数:\(h^*(x) = \prod_{i=1}^n h(x_i)\)
  • 新充分统计量:\(T^*(x) = \sum_{i=1}^n T(x_i)\)
  • 新累积量生成函数:\(b^*(\theta) = n b(\theta)\)

核心结论:n个i.i.d.的指数族样本的联合分布仍属于指数族,因此后续的定理对单变量和样本场景完全通用。


二、定理3.3.1 自然指数族的MLE定理 完整证明

定理内容

对于指数族分布\(f(x;\theta) = h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\}\)\(\theta\)的似然方程可表示为:

\[T(X) = \mathbb{E}_\theta [T(X)] \]

且有\(\mathbb{E}_\theta[T(X)] = \dot{b}(\theta)\)\(\dot{b}(\theta)\)\(b(\theta)\)\(\theta\)的一阶梯度)。若该方程在参数空间\(\Theta\)内部有解,则解必唯一,且为\(\theta\)的最大似然估计。

完整证明过程

步骤1:构建对数似然函数

最大化似然函数等价于最大化对数似然函数(对数为单调递增函数,不改变极值点)。对密度函数取自然对数,得到对数似然函数:

\[\ell(\theta) = \log L(\theta) = \log h(x) + \theta^T T(x) - b(\theta) \]

其中\(\log h(x)\)\(\theta\)无关,后续求导时导数为0,不影响极值求解。

步骤2:推导似然方程(一阶条件)

似然方程的定义是:对数似然函数对参数\(\theta\)的一阶导数(得分函数)为0。

\(\theta\)的第\(i\)个分量\(\theta_i\)求偏导:

\[\frac{\partial \ell(\theta)}{\partial \theta_i} = \frac{\partial}{\partial \theta_i}\left( \theta^T T(x) \right) - \frac{\partial b(\theta)}{\partial \theta_i} = T_i(x) - \frac{\partial b(\theta)}{\partial \theta_i} \]

令一阶偏导为0,得到似然方程的分量形式:

\[T_i(x) - \frac{\partial b(\theta)}{\partial \theta_i} = 0 \tag{3.3.3} \]

写成向量形式为:

\[T(x) = \dot{b}(\theta) \]

步骤3:证明核心矩性质\(\mathbb{E}_\theta [T(X)] = \dot{b}(\theta)\)

概率密度满足正则性条件:\(\int_{-\infty}^{+\infty} f(x;\theta) dx = 1\)(离散型替换为求和,证明完全一致)。将指数族密度代入得:

\[\int_{-\infty}^{+\infty} h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\} dx = 1 \]

\(\exp(-b(\theta))\)提出积分外,变形得:

\[\int_{-\infty}^{+\infty} h(x) \exp\left\{ \theta^T T(x) \right\} dx = \exp(b(\theta)) \tag{*} \]

对等式(*)两边同时对\(\theta_i\)求偏导(指数族满足正则性条件,积分与求导可交换):

  • 左边求导:\(\int_{-\infty}^{+\infty} T_i(x) \cdot h(x) \exp\left\{ \theta^T T(x) \right\} dx\)
  • 右边求导:\(\exp(b(\theta)) \cdot \frac{\partial b(\theta)}{\partial \theta_i}\)

两边同时乘以\(\exp(-b(\theta))\),左边恰好为\(\mathbb{E}_\theta [T_i(X)]\),因此得:

\[\mathbb{E}_\theta [T_i(X)] = \frac{\partial b(\theta)}{\partial \theta_i} \]

写成向量形式即为:

\[\mathbb{E}_\theta [T(X)] = \dot{b}(\theta) \]

将该式代入似然方程,最终得到定理的核心形式:

\[T(X) = \mathbb{E}_\theta [T(X)] \]

步骤4:证明解的唯一性与全局最优性

要证明临界点是全局唯一的最大值点,需分析对数似然函数的二阶导数(海塞矩阵)的正定性。

对一阶偏导再次求偏导,得到二阶混合偏导:

\[\frac{\partial^2 \ell(\theta)}{\partial \theta_i \partial \theta_j} = - \frac{\partial^2 b(\theta)}{\partial \theta_i \partial \theta_j} \]

写成矩阵形式,海塞矩阵为:

\[\nabla^2 \ell(\theta) = - \ddot{b}(\theta) \]

其中\(\ddot{b}(\theta)\)\(b(\theta)\)的二阶导数矩阵。

\(\mathbb{E}_\theta [T_i(X)] = \frac{\partial b(\theta)}{\partial \theta_i}\)再次求偏导,可证明:

\[\frac{\partial^2 b(\theta)}{\partial \theta_i \partial \theta_j} = \text{Cov}_\theta (T_i(X), T_j(X)) \]

\(\ddot{b}(\theta) = \text{Cov}_\theta (T(X))\),而充分统计量的协方差矩阵在指数族正则条件下是正定矩阵

因此,对数似然函数的海塞矩阵\(\nabla^2 \ell(\theta) = - \ddot{b}(\theta)\)负定矩阵,说明\(\ell(\theta)\)是关于\(\theta\)严格凹函数

严格凹函数的核心性质:临界点(一阶导数为0的点)是全局唯一的最大值点。因此,若似然方程在\(\Theta\)内部有解,则解必唯一,且为\(\theta\)的最大似然估计。

补充注:若解在\(\Theta\)的边界上,严格凹函数的最大值会在边界取到,无法用一阶导数为0的条件,需结合参数约束求解。


三、定理3.3.2 曲指数族的MLE定理 完整证明

3.1 曲指数族的定义

当自然参数\(\theta\)不是自由参数,而是由更低维度的参数\(\beta\)决定(即\(\theta = \theta(\beta)\)\(\beta\)为p维向量,\(p \leq k\))时,该分布称为曲指数族,其密度形式为:

\[X \sim f(x;\theta(\beta)) = h(x) \exp\left\{ \theta(\beta)^T T(x) - b(\theta(\beta)) \right\} \]

其中\(\theta(\beta)\)是从\(\beta\)的参数空间\(B\)\(\Theta\)的映射,参数被限制在k维空间的p维曲面上。

定理内容

\(\hat{\beta}\)满足方程:

\[T(X) = \mathbb{E}_\beta [T(X)] \]

\(\theta(\hat{\beta})\)\(\Theta\)的内点,则\(\hat{\beta}\)\(\beta\)的最大似然估计,其中\(\mathbb{E}_\beta [T(X)] = \dot{b}(\theta(\beta))\)

完整证明过程

步骤1:定义曲指数族的对数似然函数

记自然指数族的对数似然函数为\(\ell(\theta) = \log h(x) + \theta^T T(x) - b(\theta)\),将\(\theta = \theta(\beta)\)代入,得到关于\(\beta\)的对数似然函数:

\[\bar{\ell}(\beta) = \ell(\theta(\beta)) = \log h(x) + \theta(\beta)^T T(x) - b(\theta(\beta)) \]

我们的目标是找到\(\hat{\beta} = \arg\max_{\beta \in B} \bar{\ell}(\beta)\)

步骤2:利用自然指数族的MLE结论

\(\hat{\beta}\)满足\(T(X) = \mathbb{E}_{\hat{\beta}} [T(X)]\),令\(\hat{\theta} = \theta(\hat{\beta})\),则方程可写为:

\[T(X) = \mathbb{E}_{\hat{\theta}} [T(X)] \]

根据定理3.3.1,若\(\hat{\theta}\)\(\Theta\)的内点,则\(\hat{\theta}\)\(\theta\)的MLE,即:

\[\ell(\hat{\theta}) \geq \ell(\theta), \quad \forall \theta \in \Theta \]

步骤3:证明\(\hat{\beta}\)\(\beta\)的MLE

对任意\(\beta \in B\),对应的\(\theta(\beta) \in \Theta_1 \subset \Theta\),因此有:

\[\ell(\hat{\theta}) \geq \ell(\theta(\beta)), \quad \forall \beta \in B \]

根据定义,\(\bar{\ell}(\hat{\beta}) = \ell(\theta(\hat{\beta})) = \ell(\hat{\theta})\)\(\bar{\ell}(\beta) = \ell(\theta(\beta))\),因此:

\[\bar{\ell}(\hat{\beta}) \geq \bar{\ell}(\beta), \quad \forall \beta \in B \]

\(\hat{\beta}\)\(\bar{\ell}(\beta)\)的全局最大值点,也就是\(\beta\)的最大似然估计。

补充注:该定理的方程是求解\(\hat{\beta}\)充分非必要条件,并非\(\beta\)的似然方程。\(\beta\)的似然方程由链式法则推导为:

\[\frac{\partial \bar{\ell}(\beta)}{\partial \beta_a} = \sum_{i=1}^k \frac{\partial \theta_i}{\partial \beta_a} \left[ T_i(x) - \frac{\partial b(\theta)}{\partial \theta_i} \right] = 0, \quad a=1,\dots,p \]

满足定理方程的解一定满足似然方程,但反之不成立。


四、例题详细拆解

例3.3.8 二元正态分布的MLE求解

题目

\((X_1,Y_1),\dots,(X_n,Y_n)\)独立同分布,\((X_1,Y_1) \sim N(0,0,\sigma^2,\sigma^2,\rho)\),求\(\sigma^2, \rho\)的最大似然估计。

求解过程

  1. 写出样本联合密度
    单组样本的二元正态密度为:

\[f(x_i,y_i) = \frac{1}{2\pi \sigma^2 \sqrt{1-\rho^2}} \exp\left\{ -\frac{1}{2\sigma^2(1-\rho^2)} \left[ x_i^2 + y_i^2 - 2\rho x_i y_i \right] \right\} \]

n个样本的联合密度为:

\[f(x,y) = \left( \frac{1}{2\pi \sigma^2 \sqrt{1-\rho^2}} \right)^n \exp\left\{ -\frac{1}{2\sigma^2(1-\rho^2)} \left[ \sum_{i=1}^n (x_i^2 + y_i^2) - 2\rho \sum_{i=1}^n x_i y_i \right] \right\} \]

  1. 转化为指数族形式
    将指数部分展开,定义:
  • 充分统计量:\(T_1 = \sum_{i=1}^n (X_i^2 + Y_i^2)\)\(T_2 = \sum_{i=1}^n X_i Y_i\)
  • 自然参数:\(\theta_1 = -\frac{1}{2\sigma^2(1-\rho^2)}\)\(\theta_2 = \frac{\rho}{\sigma^2(1-\rho^2)}\)
  • 待估参数:\(\beta = (\sigma^2, \rho)\)\(\theta = \theta(\beta)\),属于曲指数族。
  1. 计算充分统计量的期望

\[\mathbb{E}[T_1] = n \cdot \mathbb{E}[X_1^2 + Y_1^2] = n(\sigma^2 + \sigma^2) = 2n\sigma^2 \]

\[\mathbb{E}[T_2] = n \cdot \mathbb{E}[X_1 Y_1] = n \cdot \rho \sigma^2 \]

  1. 解方程求MLE
    \(T_1 = \mathbb{E}[T_1]\)\(T_2 = \mathbb{E}[T_2]\),得:

\[\sum_{i=1}^n (X_i^2 + Y_i^2) = 2n\sigma^2, \quad \sum_{i=1}^n X_i Y_i = n\rho \sigma^2 \]

解得:

\[\widehat{\sigma^2} = \frac{1}{2n} \sum_{i=1}^n (X_i^2 + Y_i^2), \quad \hat{\rho} = \frac{2 \sum_{i=1}^n X_i Y_i}{\sum_{i=1}^n (X_i^2 + Y_i^2)} \]


例3.3.9 含参数的多项分布的MLE求解

题目

\(N = (N_1,N_2,N_3)^T \sim MN(n, \pi)\),其中\(\pi_1 = \beta^2\)\(\pi_2 = 2\beta(1-\beta)\)\(\pi_3 = (1-\beta)^2\),求\(\beta\)的最大似然估计。

求解过程

  1. 写出多项分布的质量函数

\[p(n_1,n_2,n_3;\beta) = \frac{n!}{n_1! n_2! n_3!} \cdot (\beta^2)^{n_1} \cdot [2\beta(1-\beta)]^{n_2} \cdot [(1-\beta)^2]^{n_3} \]

  1. 转化为指数族形式
    将和\(\beta\)无关的项提为\(h(n_1,n_2,n_3) = \frac{n!}{n_1! n_2! n_3!} \cdot 2^{n_2}\),剩余部分写成指数形式:

\[p(n_1,n_2,n_3;\beta) = h(n_1,n_2,n_3) \exp\left\{ (2n_1 + n_2) \log\left( \frac{\beta}{1-\beta} \right) + 2n \log(1-\beta) \right\} \]

定义:

  • 充分统计量:\(T(N) = 2N_1 + N_2\)
  • 自然参数:\(\theta = \log\left( \frac{\beta}{1-\beta} \right) = \theta(\beta)\),属于曲指数族。
  1. 计算充分统计量的期望
    \(N_1 \sim b(n,\pi_1)\)\(N_2 \sim b(n,\pi_2)\),因此:

\[\mathbb{E}[T(N)] = 2\mathbb{E}[N_1] + \mathbb{E}[N_2] = 2n\pi_1 + n\pi_2 \]

代入\(\pi_1 = \beta^2\)\(\pi_2 = 2\beta(1-\beta)\),化简得:

\[\mathbb{E}[T(N)] = 2n\beta^2 + 2n\beta(1-\beta) = 2n\beta \]

  1. 解方程求MLE
    \(T(N) = \mathbb{E}[T(N)]\),得:

\[2N_1 + N_2 = 2n\beta \]

解得:

\[\hat{\beta} = \frac{2N_1 + N_2}{2n} \]


五、核心知识点归纳总结

表1 指数族核心符号与定义

项目 核心内容
标准形式 \(f(x;\theta) = h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\}\)
自然参数\(\theta\) 待估参数,决定分布的核心特征,维度与充分统计量一致
充分统计量\(T(x)\) 包含样本中关于\(\theta\)的所有信息,其期望等于\(b(\theta)\)的一阶导数
累积量生成函数\(b(\theta)\) 一阶导数为\(T(x)\)的期望,二阶导数为\(T(x)\)的协方差矩阵(正定)
曲指数族 自然参数\(\theta\)由低维参数\(\beta\)决定,即\(\theta = \theta(\beta)\),参数维度\(p \leq k\)

表2 两个核心定理对比

对比项 定理3.3.1(自然指数族) 定理3.3.2(曲指数族)
适用场景 自然参数\(\theta\)为自由参数,维度与充分统计量一致 自然参数\(\theta\)是低维参数\(\beta\)的函数,参数被限制在低维曲面
核心方程 \(T(X) = \mathbb{E}_\theta [T(X)]\) \(T(X) = \mathbb{E}_\beta [T(X)]\)
方程性质 \(\theta\)的似然方程,充要条件 \(\beta\)的MLE的充分非必要条件,非似然方程
解的性质 若在\(\Theta\)内部有解,必唯一且为全局MLE \(\theta(\hat{\beta})\)\(\Theta\)内部,\(\hat{\beta}\)必为\(\beta\)的MLE
核心逻辑 严格凹函数的临界点是全局最大值点 继承自然指数族的全局最优性,映射到低维参数空间

表3 指数族MLE的通用求解步骤

步骤 操作内容
步骤1 将目标分布的密度/质量函数,整理为指数族的标准形式
步骤2 提取充分统计量\(T(X)\),确定待估参数与自然参数的关系
步骤3 计算充分统计量的期望\(\mathbb{E}[T(X)]\),化简为待估参数的表达式
步骤4 列方程\(T(X) = \mathbb{E}[T(X)]\),求解待估参数
步骤5 验证解是否在参数空间内部,若在内部则为唯一的MLE

表4 两个例题的核心信息对比

对比项 例3.3.8 二元正态分布 例3.3.9 含参多项分布
待估参数 \(\beta = (\sigma^2, \rho)\)(2维) \(\beta\)(1维)
充分统计量 \(T_1 = \sum (X_i^2 + Y_i^2)\)\(T_2 = \sum X_i Y_i\) \(T(N) = 2N_1 + N_2\)
期望化简结果 \(\mathbb{E}[T_1] = 2n\sigma^2\)\(\mathbb{E}[T_2] = n\rho \sigma^2\) \(\mathbb{E}[T(N)] = 2n\beta\)
MLE结果 \(\widehat{\sigma^2} = \frac{1}{2n}\sum (X_i^2 + Y_i^2)\)\(\hat{\rho} = \frac{2\sum X_i Y_i}{\sum (X_i^2 + Y_i^2)}\) \(\hat{\beta} = \frac{2N_1 + N_2}{2n}\)
核心特点 双参数曲指数族,通过两个方程联立求解 单参数曲指数族,方程直接化简得到闭式解

posted on 2026-02-24 09:16  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航