3.3.2指数族分布的最大似然估计
指数族分布的最大似然估计 完整讲解与推导
作为统计学中最核心的分布族之一,指数族分布涵盖了绝大多数常见的概率分布(正态、二项、泊松、多项、伽马等),其最大似然估计(MLE)具有统一的求解形式和优良的统计性质,下面我们从基础定义到定理证明、例题拆解,进行完整的讲解。
一、指数族分布的基础定义
1.1 单变量指数族分布
指数族分布的概率密度/质量函数(连续型为密度,离散型为质量函数,形式完全统一)的标准形式为:
| 符号 | 名称 | 核心含义与性质 |
|---|---|---|
| \(\theta\) | 自然参数/典范参数 | k维列向量,是我们的待估参数,参数空间为\(\Theta \subset \mathbb{R}^k\) |
| \(T(x)\) | 充分统计量 | k维列向量,包含了样本中关于参数\(\theta\)的所有信息,是指数族的核心统计量 |
| \(h(x)\) | 基底函数 | 仅与观测值\(x\)有关,与参数\(\theta\)无关,求导时会被消去,不影响极值求解 |
| \(b(\theta)\) | 累积量生成函数/对数配分函数 | 仅与\(\theta\)有关,作用是保证密度函数的正则性(积分/求和为1),其各阶导数对应\(T(x)\)的各阶矩 |
1.2 独立同分布样本的联合指数族形式
若有n个独立同分布的样本\(X=(X_1,X_2,\dots,X_n)^T\),每个\(X_i\)服从上述指数族分布,则样本的联合密度函数为:
该式依然满足指数族的标准形式,只需重新定义:
- 新基底函数:\(h^*(x) = \prod_{i=1}^n h(x_i)\)
- 新充分统计量:\(T^*(x) = \sum_{i=1}^n T(x_i)\)
- 新累积量生成函数:\(b^*(\theta) = n b(\theta)\)
核心结论:n个i.i.d.的指数族样本的联合分布仍属于指数族,因此后续的定理对单变量和样本场景完全通用。
二、定理3.3.1 自然指数族的MLE定理 完整证明
定理内容
对于指数族分布\(f(x;\theta) = h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\}\),\(\theta\)的似然方程可表示为:
且有\(\mathbb{E}_\theta[T(X)] = \dot{b}(\theta)\)(\(\dot{b}(\theta)\)为\(b(\theta)\)对\(\theta\)的一阶梯度)。若该方程在参数空间\(\Theta\)内部有解,则解必唯一,且为\(\theta\)的最大似然估计。
完整证明过程
步骤1:构建对数似然函数
最大化似然函数等价于最大化对数似然函数(对数为单调递增函数,不改变极值点)。对密度函数取自然对数,得到对数似然函数:
其中\(\log h(x)\)与\(\theta\)无关,后续求导时导数为0,不影响极值求解。
步骤2:推导似然方程(一阶条件)
似然方程的定义是:对数似然函数对参数\(\theta\)的一阶导数(得分函数)为0。
对\(\theta\)的第\(i\)个分量\(\theta_i\)求偏导:
令一阶偏导为0,得到似然方程的分量形式:
写成向量形式为:
步骤3:证明核心矩性质\(\mathbb{E}_\theta [T(X)] = \dot{b}(\theta)\)
概率密度满足正则性条件:\(\int_{-\infty}^{+\infty} f(x;\theta) dx = 1\)(离散型替换为求和,证明完全一致)。将指数族密度代入得:
将\(\exp(-b(\theta))\)提出积分外,变形得:
对等式(*)两边同时对\(\theta_i\)求偏导(指数族满足正则性条件,积分与求导可交换):
- 左边求导:\(\int_{-\infty}^{+\infty} T_i(x) \cdot h(x) \exp\left\{ \theta^T T(x) \right\} dx\)
- 右边求导:\(\exp(b(\theta)) \cdot \frac{\partial b(\theta)}{\partial \theta_i}\)
两边同时乘以\(\exp(-b(\theta))\),左边恰好为\(\mathbb{E}_\theta [T_i(X)]\),因此得:
写成向量形式即为:
将该式代入似然方程,最终得到定理的核心形式:
步骤4:证明解的唯一性与全局最优性
要证明临界点是全局唯一的最大值点,需分析对数似然函数的二阶导数(海塞矩阵)的正定性。
对一阶偏导再次求偏导,得到二阶混合偏导:
写成矩阵形式,海塞矩阵为:
其中\(\ddot{b}(\theta)\)是\(b(\theta)\)的二阶导数矩阵。
对\(\mathbb{E}_\theta [T_i(X)] = \frac{\partial b(\theta)}{\partial \theta_i}\)再次求偏导,可证明:
即\(\ddot{b}(\theta) = \text{Cov}_\theta (T(X))\),而充分统计量的协方差矩阵在指数族正则条件下是正定矩阵。
因此,对数似然函数的海塞矩阵\(\nabla^2 \ell(\theta) = - \ddot{b}(\theta)\)是负定矩阵,说明\(\ell(\theta)\)是关于\(\theta\)的严格凹函数。
严格凹函数的核心性质:临界点(一阶导数为0的点)是全局唯一的最大值点。因此,若似然方程在\(\Theta\)内部有解,则解必唯一,且为\(\theta\)的最大似然估计。
补充注:若解在\(\Theta\)的边界上,严格凹函数的最大值会在边界取到,无法用一阶导数为0的条件,需结合参数约束求解。
三、定理3.3.2 曲指数族的MLE定理 完整证明
3.1 曲指数族的定义
当自然参数\(\theta\)不是自由参数,而是由更低维度的参数\(\beta\)决定(即\(\theta = \theta(\beta)\),\(\beta\)为p维向量,\(p \leq k\))时,该分布称为曲指数族,其密度形式为:
其中\(\theta(\beta)\)是从\(\beta\)的参数空间\(B\)到\(\Theta\)的映射,参数被限制在k维空间的p维曲面上。
定理内容
若\(\hat{\beta}\)满足方程:
且\(\theta(\hat{\beta})\)是\(\Theta\)的内点,则\(\hat{\beta}\)为\(\beta\)的最大似然估计,其中\(\mathbb{E}_\beta [T(X)] = \dot{b}(\theta(\beta))\)。
完整证明过程
步骤1:定义曲指数族的对数似然函数
记自然指数族的对数似然函数为\(\ell(\theta) = \log h(x) + \theta^T T(x) - b(\theta)\),将\(\theta = \theta(\beta)\)代入,得到关于\(\beta\)的对数似然函数:
我们的目标是找到\(\hat{\beta} = \arg\max_{\beta \in B} \bar{\ell}(\beta)\)。
步骤2:利用自然指数族的MLE结论
若\(\hat{\beta}\)满足\(T(X) = \mathbb{E}_{\hat{\beta}} [T(X)]\),令\(\hat{\theta} = \theta(\hat{\beta})\),则方程可写为:
根据定理3.3.1,若\(\hat{\theta}\)是\(\Theta\)的内点,则\(\hat{\theta}\)是\(\theta\)的MLE,即:
步骤3:证明\(\hat{\beta}\)是\(\beta\)的MLE
对任意\(\beta \in B\),对应的\(\theta(\beta) \in \Theta_1 \subset \Theta\),因此有:
根据定义,\(\bar{\ell}(\hat{\beta}) = \ell(\theta(\hat{\beta})) = \ell(\hat{\theta})\),\(\bar{\ell}(\beta) = \ell(\theta(\beta))\),因此:
即\(\hat{\beta}\)是\(\bar{\ell}(\beta)\)的全局最大值点,也就是\(\beta\)的最大似然估计。
补充注:该定理的方程是求解\(\hat{\beta}\)的充分非必要条件,并非\(\beta\)的似然方程。\(\beta\)的似然方程由链式法则推导为:
满足定理方程的解一定满足似然方程,但反之不成立。
四、例题详细拆解
例3.3.8 二元正态分布的MLE求解
题目
设\((X_1,Y_1),\dots,(X_n,Y_n)\)独立同分布,\((X_1,Y_1) \sim N(0,0,\sigma^2,\sigma^2,\rho)\),求\(\sigma^2, \rho\)的最大似然估计。
求解过程
- 写出样本联合密度
单组样本的二元正态密度为:
n个样本的联合密度为:
- 转化为指数族形式
将指数部分展开,定义:
- 充分统计量:\(T_1 = \sum_{i=1}^n (X_i^2 + Y_i^2)\),\(T_2 = \sum_{i=1}^n X_i Y_i\)
- 自然参数:\(\theta_1 = -\frac{1}{2\sigma^2(1-\rho^2)}\),\(\theta_2 = \frac{\rho}{\sigma^2(1-\rho^2)}\)
- 待估参数:\(\beta = (\sigma^2, \rho)\),\(\theta = \theta(\beta)\),属于曲指数族。
- 计算充分统计量的期望
- 解方程求MLE
令\(T_1 = \mathbb{E}[T_1]\),\(T_2 = \mathbb{E}[T_2]\),得:
解得:
例3.3.9 含参数的多项分布的MLE求解
题目
设\(N = (N_1,N_2,N_3)^T \sim MN(n, \pi)\),其中\(\pi_1 = \beta^2\),\(\pi_2 = 2\beta(1-\beta)\),\(\pi_3 = (1-\beta)^2\),求\(\beta\)的最大似然估计。
求解过程
- 写出多项分布的质量函数
- 转化为指数族形式
将和\(\beta\)无关的项提为\(h(n_1,n_2,n_3) = \frac{n!}{n_1! n_2! n_3!} \cdot 2^{n_2}\),剩余部分写成指数形式:
定义:
- 充分统计量:\(T(N) = 2N_1 + N_2\)
- 自然参数:\(\theta = \log\left( \frac{\beta}{1-\beta} \right) = \theta(\beta)\),属于曲指数族。
- 计算充分统计量的期望
\(N_1 \sim b(n,\pi_1)\),\(N_2 \sim b(n,\pi_2)\),因此:
代入\(\pi_1 = \beta^2\),\(\pi_2 = 2\beta(1-\beta)\),化简得:
- 解方程求MLE
令\(T(N) = \mathbb{E}[T(N)]\),得:
解得:
五、核心知识点归纳总结
表1 指数族核心符号与定义
| 项目 | 核心内容 |
|---|---|
| 标准形式 | \(f(x;\theta) = h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\}\) |
| 自然参数\(\theta\) | 待估参数,决定分布的核心特征,维度与充分统计量一致 |
| 充分统计量\(T(x)\) | 包含样本中关于\(\theta\)的所有信息,其期望等于\(b(\theta)\)的一阶导数 |
| 累积量生成函数\(b(\theta)\) | 一阶导数为\(T(x)\)的期望,二阶导数为\(T(x)\)的协方差矩阵(正定) |
| 曲指数族 | 自然参数\(\theta\)由低维参数\(\beta\)决定,即\(\theta = \theta(\beta)\),参数维度\(p \leq k\) |
表2 两个核心定理对比
| 对比项 | 定理3.3.1(自然指数族) | 定理3.3.2(曲指数族) |
|---|---|---|
| 适用场景 | 自然参数\(\theta\)为自由参数,维度与充分统计量一致 | 自然参数\(\theta\)是低维参数\(\beta\)的函数,参数被限制在低维曲面 |
| 核心方程 | \(T(X) = \mathbb{E}_\theta [T(X)]\) | \(T(X) = \mathbb{E}_\beta [T(X)]\) |
| 方程性质 | 是\(\theta\)的似然方程,充要条件 | 是\(\beta\)的MLE的充分非必要条件,非似然方程 |
| 解的性质 | 若在\(\Theta\)内部有解,必唯一且为全局MLE | 若\(\theta(\hat{\beta})\)在\(\Theta\)内部,\(\hat{\beta}\)必为\(\beta\)的MLE |
| 核心逻辑 | 严格凹函数的临界点是全局最大值点 | 继承自然指数族的全局最优性,映射到低维参数空间 |
表3 指数族MLE的通用求解步骤
| 步骤 | 操作内容 |
|---|---|
| 步骤1 | 将目标分布的密度/质量函数,整理为指数族的标准形式 |
| 步骤2 | 提取充分统计量\(T(X)\),确定待估参数与自然参数的关系 |
| 步骤3 | 计算充分统计量的期望\(\mathbb{E}[T(X)]\),化简为待估参数的表达式 |
| 步骤4 | 列方程\(T(X) = \mathbb{E}[T(X)]\),求解待估参数 |
| 步骤5 | 验证解是否在参数空间内部,若在内部则为唯一的MLE |
表4 两个例题的核心信息对比
| 对比项 | 例3.3.8 二元正态分布 | 例3.3.9 含参多项分布 |
|---|---|---|
| 待估参数 | \(\beta = (\sigma^2, \rho)\)(2维) | \(\beta\)(1维) |
| 充分统计量 | \(T_1 = \sum (X_i^2 + Y_i^2)\),\(T_2 = \sum X_i Y_i\) | \(T(N) = 2N_1 + N_2\) |
| 期望化简结果 | \(\mathbb{E}[T_1] = 2n\sigma^2\),\(\mathbb{E}[T_2] = n\rho \sigma^2\) | \(\mathbb{E}[T(N)] = 2n\beta\) |
| MLE结果 | \(\widehat{\sigma^2} = \frac{1}{2n}\sum (X_i^2 + Y_i^2)\),\(\hat{\rho} = \frac{2\sum X_i Y_i}{\sum (X_i^2 + Y_i^2)}\) | \(\hat{\beta} = \frac{2N_1 + N_2}{2n}\) |
| 核心特点 | 双参数曲指数族,通过两个方程联立求解 | 单参数曲指数族,方程直接化简得到闭式解 |
posted on 2026-02-24 09:16 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号