3.3.3最大似然估计的不变原理
最大似然估计的不变原理 详细讲解与推导
一、背景与核心问题引入
在参数估计的实际应用中,我们往往不满足于仅估计总体的原始参数\(\theta\),更多时候需要估计参数的函数\(\psi = g(\theta)\)。例如:
- 正态分布中,我们估计了方差\(\sigma^2\),需要进一步得到标准差\(\sigma = \sqrt{\sigma^2}\);
- 泊松分布中,我们估计了强度\(\lambda\),需要得到\(\lambda\)的倒数\(\sigma = \lambda^{-1}\);
- 对数正态分布中,我们估计了\(\mu,\sigma^2\),需要得到总体的期望\(E(X)\)和方差\(\text{Var}(X)\)。
此时自然产生一个问题:若\(\hat{\theta}\)是\(\theta\)的最大似然估计(MLE),那么\(g(\hat{\theta})\)是否是\(\psi = g(\theta)\)的最大似然估计?
这里需要先明确一个关键对比:无偏性不具备非线性变换下的不变性,而最大似然性具备。例如:
- 若\(S^2\)是\(\sigma^2\)的无偏估计,一般\(S = \sqrt{S^2}\)不是\(\sigma\)的无偏估计(期望的非线性变换不保持无偏性);
- 但对最大似然估计,若\(S^2\)是\(\sigma^2\)的MLE,则\(S\)一定是\(\sigma\)的MLE,这就是不变原理的核心价值。
二、前置基础:最大似然估计(MLE)回顾
设总体\(X \sim f(x;\theta)\),\(\theta \in \Theta\)(\(\Theta\)为参数空间),\(X_1,X_2,\dots,X_n\)是来自\(X\)的独立同分布样本:
- 似然函数:\(L(\theta) = \prod_{i=1}^n f(X_i;\theta)\),描述样本出现的概率关于参数\(\theta\)的函数;
- 对数似然函数:\(l(\theta) = \log L(\theta)\),与\(L(\theta)\)有完全相同的最大值点;
- \(\theta\)的最大似然估计:若\(\hat{\theta}\)满足\(L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta)\),则称\(\hat{\theta}\)是\(\theta\)的MLE,即让样本出现概率最大的参数值。
三、核心定义:导出似然函数
当我们要估计\(\psi = g(\theta)\)时,\(g(\theta)\)不一定是一一映射(例如\(\psi = \theta^2\),一个\(\psi\)对应两个\(\theta\)),无法直接将\(\psi\)代入原似然函数,因此需要定义关于\(\psi\)的似然函数——导出似然。
定义3.3.2 导出似然与\(\psi\)的MLE
设\(X \sim f(x;\theta)\),\(\theta \in \Theta\),\(\psi = g(\theta) \in \Omega\)(\(\Omega\)为\(\psi\)的取值空间,即\(g\)的值域)。
- 定义原像集:\(g^{-1}(\psi) = \{\theta \in \Theta \mid g(\theta) = \psi\}\),即所有映射到\(\psi\)的\(\theta\)的集合;
- 导出似然函数:\(L^*(\psi) = \max_{\theta \in g^{-1}(\psi)} L(\theta)\)
含义:对给定的\(\psi\),先在所有能得到该\(\psi\)的\(\theta\)中,找到让原似然函数最大的值,作为\(\psi\)对应的似然值; - \(\psi\)的最大似然估计:若\(\hat{\psi}\)满足\(L^*(\hat{\psi}) = \max_{\psi \in \Omega} L^*(\psi)\),则称\(\hat{\psi}\)是\(\psi\)的MLE。
定义的核心逻辑:先对每个\(\psi\)做“局部最大化”,再对所有\(\psi\)做“全局最大化”,保证\(L^*(\hat{\psi})\)与原似然的全局最大值\(L(\hat{\theta})\)一致。
四、核心定理:不变原理与严格证明
定理3.3.3 最大似然估计的不变原理
设\(X \sim f(x;\theta)\),\(\theta \in \Theta\)。若\(\theta\)的最大似然估计为\(\hat{\theta}\),则\(\psi = g(\theta)\)关于导出似然的最大似然估计为\(\hat{\psi} = g(\hat{\theta})\)。
详细证明过程
证明目标:证明\(L^*(g(\hat{\theta})) \geq L^*(\psi)\)对所有\(\psi \in \Omega\)成立,即\(g(\hat{\theta})\)让导出似然\(L^*(\psi)\)达到全局最大值,符合\(\psi\)的MLE定义。
-
记\(\hat{\psi} = g(\hat{\theta})\),根据导出似然的定义,有:
\[L^*(\hat{\psi}) = \max_{\theta \in g^{-1}(\hat{\psi})} L(\theta) \]即\(L^*(\hat{\psi})\)是所有满足\(g(\theta)=\hat{\psi}\)的\(\theta\)中,似然函数\(L(\theta)\)的最大值。
-
由于\(\hat{\psi} = g(\hat{\theta})\),因此\(\hat{\theta} \in g^{-1}(\hat{\psi})\)(\(\hat{\theta}\)本身就在该原像集中)。
根据最大值的性质:集合上的最大值≥集合内任意元素的函数值,因此:\[L^*(\hat{\psi}) = \max_{\theta \in g^{-1}(\hat{\psi})} L(\theta) \geq L(\hat{\theta}) \]得到第一个核心不等式。
-
由\(\hat{\theta}\)是\(\theta\)的MLE,根据MLE的定义,\(\hat{\theta}\)让原似然在整个参数空间\(\Theta\)上达到全局最大值:
\[L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta) \] -
对任意\(\psi \in \Omega\),其原像集\(g^{-1}(\psi)\)是\(\Theta\)的子集(所有\(\theta \in g^{-1}(\psi)\)都属于\(\Theta\))。
根据最大值的性质:子集上的最大值≤全集上的最大值,因此:\[\max_{\theta \in g^{-1}(\psi)} L(\theta) \leq \max_{\theta \in \Theta} L(\theta) = L(\hat{\theta}) \]结合导出似然的定义\(L^*(\psi) = \max_{\theta \in g^{-1}(\psi)} L(\theta)\),可得:
\[L^*(\psi) \leq L(\hat{\theta}), \quad \forall \psi \in \Omega \]得到第二个核心不等式。
-
联立两个不等式,对所有\(\psi \in \Omega\),有:
\[L^*(\hat{\psi}) \geq L(\hat{\theta}) \geq L^*(\psi) \]即\(L^*(\hat{\psi})\)是\(L^*(\psi)\)在\(\Omega\)上的全局最大值。
根据\(\psi\)的MLE的定义,\(\hat{\psi} = g(\hat{\theta})\)是\(\psi = g(\theta)\)的最大似然估计,定理得证。
定理的强大之处:无论\(g(\theta)\)是线性/非线性、单射/多对一映射,只要是可测函数(实际应用中几乎所有函数都满足),不变原理均成立。
五、典型例题详细推导
例3.3.10 对数正态分布的MLE
题目:设\(X_1,\dots,X_n\)独立同分布,\(X_i \sim LN(\mu,\sigma^2)\)(对数正态分布),求\(\mu,\sigma^2\),以及\(a = E(X_1)\),\(\tau^2 = \text{Var}(X_1)\)的最大似然估计。
步骤1:转化为正态分布,求原参数的MLE
对数正态分布的定义:若\(X \sim LN(\mu,\sigma^2)\),则\(Y = \log X \sim N(\mu,\sigma^2)\)。令\(Y_i = \log X_i\),则\(Y_1,\dots,Y_n \sim N(\mu,\sigma^2)\)。
正态分布的似然函数与对数似然:
对\(\mu\)求偏导并令导数为0:
对\(\sigma^2\)求偏导并令导数为0,代入\(\hat{\mu}=\bar{Y}\):
步骤2:利用不变原理求\(a\)和\(\tau^2\)的MLE
首先推导对数正态分布的期望和方差公式:
- 期望:\(a = E(X) = E(e^Y)\),正态分布的矩生成函数\(M_Y(t) = E(e^{tY}) = \exp\left( \mu t + \frac{\sigma^2 t^2}{2} \right)\),令\(t=1\),得:\[a = \exp\left( \mu + \frac{\sigma^2}{2} \right) \]
- 方差:\(\text{Var}(X) = E(X^2) - [E(X)]^2\),\(E(X^2)=E(e^{2Y})=M_Y(2)=\exp(2\mu + 2\sigma^2)\),因此:\[\tau^2 = \exp(2\mu + 2\sigma^2) - \exp\left( 2\mu + \sigma^2 \right) = a^2 (e^{\sigma^2} - 1) \]
根据不变原理,将\(\mu,\sigma^2\)替换为其MLE,直接得到:
例3.3.11 正态分布分位数的MLE
题目:设\(X_1,\dots,X_n\)独立同分布,\(X_i \sim N(\mu,\sigma^2)\),\(P(X_1 \leq x_p) = p\)(\(x_p\)为\(p\)分位数)。(1) 若\(p\)已知,求\(x_p\)的MLE;(2) 若\(x_p\)已知,求\(p\)的MLE。
步骤1:原参数的MLE与分位数关系
正态分布的原参数MLE:\(\hat{\mu} = \bar{X}\),\(\hat{\sigma^2} = S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2\),由不变原理,\(\sigma\)的MLE为\(\hat{\sigma} = S = \sqrt{S^2}\)。
对正态分布标准化,\(Z = \frac{X - \mu}{\sigma} \sim N(0,1)\),标准正态分布函数为\(\Phi(\cdot)\),因此:
记标准正态分布的\(p\)分位数为\(z_p\)(满足\(\Phi(z_p)=p\),\(p\)已知时\(z_p\)为常数),因此:
步骤2:分情况应用不变原理
(1) \(p\)已知,求\(x_p\)的MLE:
\(x_p\)是\(\mu,\sigma\)的线性函数\(x_p = g(\mu,\sigma) = \mu + \sigma z_p\),根据不变原理,直接代入MLE得:
(2) \(x_p\)已知,求\(p\)的MLE:
\(p\)是\(\mu,\sigma\)的非线性函数\(p = h(\mu,\sigma) = \Phi\left( \frac{x_p - \mu}{\sigma} \right)\),根据不变原理,代入MLE得:
六、不变原理的关键注意事项
- 适用范围:仅要求\(g(\theta)\)是可测函数(连续函数、分段连续函数均满足),无需一一映射,线性/非线性变换均成立;
- 与无偏性的本质区别:不变原理保持的是“最大似然”性质,不保持无偏性。例如\(\hat{\sigma^2}=S^2\)是\(\sigma^2\)的有偏MLE,\(\hat{\sigma}=S\)也是\(\sigma\)的有偏MLE,但二者均符合MLE的定义;
- 多对一映射的处理:例如\(\psi = \theta^2\),若\(\hat{\theta}\)是\(\theta\)的MLE,则\(\hat{\psi} = \hat{\theta}^2\)一定是\(\psi\)的MLE,无需额外调整;
- 全局最大值一致性:导出似然的定义保证了\(\hat{\psi}=g(\hat{\theta})\)对应的似然值,与原参数MLE的全局最大值一致,不会出现局部最优的问题。
七、知识点归纳总结表
| 分类 | 核心内容 | 详细说明 |
|---|---|---|
| 核心问题 | 参数函数的MLE求解 | 已知\(\hat{\theta}\)是\(\theta\)的MLE,求\(\psi=g(\theta)\)的MLE |
| 前置定义1 | 原像集\(g^{-1}(\psi)\) | 所有满足\(g(\theta)=\psi\)的\(\theta\)的集合,即\(\{\theta \in \Theta \mid g(\theta)=\psi\}\) |
| 前置定义2 | 导出似然\(L^*(\psi)\) | 对每个\(\psi\),在其原像集上对原似然取最大值:\(L^*(\psi) = \max_{\theta \in g^{-1}(\psi)} L(\theta)\) |
| 前置定义3 | \(\psi\)的MLE | 让导出似然达到全局最大值的\(\hat{\psi}\),满足\(L^*(\hat{\psi}) = \max_{\psi \in \Omega} L^*(\psi)\) |
| 核心定理 | 不变原理 | 若\(\hat{\theta}\)是\(\theta\)的MLE,则\(\hat{\psi}=g(\hat{\theta})\)是\(\psi=g(\theta)\)的MLE |
| 证明核心 | 两次不等式联立 | 1. \(L^*(g(\hat{\theta})) \geq L(\hat{\theta})\)(集合最大值≥集合内元素值) 2. \(L(\hat{\theta}) \geq L^*(\psi), \forall \psi\)(全集最大值≥子集最大值) 联立得\(L^*(g(\hat{\theta})) \geq L^*(\psi)\),符合MLE定义 |
| 核心优势 | 简化MLE求解 | 无需对参数函数重新构造似然、求导求极值,直接代入原参数的MLE即可得到结果 |
| 适用条件 | 可测函数\(g(\theta)\) | 线性/非线性、单射/多对一映射均适用,实际应用中几乎无限制 |
| 关键对比 | 与无偏估计的区别 | 无偏性仅在线性变换下保持,非线性变换失效; MLE的最大似然性在任意可测变换下均保持(不变原理) |
| 典型应用 | 1. 标准差\(\sigma\)的MLE 2. 对数正态分布的期望/方差MLE 3. 正态分布分位数的MLE |
均通过“原参数MLE代入函数表达式”直接得到结果,无需重新求解似然极值 |
posted on 2026-02-24 09:23 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号