昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

3.3.3最大似然估计的不变原理

最大似然估计的不变原理 详细讲解与推导

一、背景与核心问题引入

在参数估计的实际应用中,我们往往不满足于仅估计总体的原始参数\(\theta\),更多时候需要估计参数的函数\(\psi = g(\theta)\)。例如:

  • 正态分布中,我们估计了方差\(\sigma^2\),需要进一步得到标准差\(\sigma = \sqrt{\sigma^2}\)
  • 泊松分布中,我们估计了强度\(\lambda\),需要得到\(\lambda\)的倒数\(\sigma = \lambda^{-1}\)
  • 对数正态分布中,我们估计了\(\mu,\sigma^2\),需要得到总体的期望\(E(X)\)和方差\(\text{Var}(X)\)

此时自然产生一个问题:若\(\hat{\theta}\)\(\theta\)的最大似然估计(MLE),那么\(g(\hat{\theta})\)是否是\(\psi = g(\theta)\)的最大似然估计?

这里需要先明确一个关键对比:无偏性不具备非线性变换下的不变性,而最大似然性具备。例如:

  • \(S^2\)\(\sigma^2\)的无偏估计,一般\(S = \sqrt{S^2}\)不是\(\sigma\)的无偏估计(期望的非线性变换不保持无偏性);
  • 但对最大似然估计,若\(S^2\)\(\sigma^2\)的MLE,则\(S\)一定是\(\sigma\)的MLE,这就是不变原理的核心价值。

二、前置基础:最大似然估计(MLE)回顾

设总体\(X \sim f(x;\theta)\)\(\theta \in \Theta\)\(\Theta\)为参数空间),\(X_1,X_2,\dots,X_n\)是来自\(X\)的独立同分布样本:

  1. 似然函数\(L(\theta) = \prod_{i=1}^n f(X_i;\theta)\),描述样本出现的概率关于参数\(\theta\)的函数;
  2. 对数似然函数\(l(\theta) = \log L(\theta)\),与\(L(\theta)\)有完全相同的最大值点;
  3. \(\theta\)的最大似然估计:若\(\hat{\theta}\)满足\(L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta)\),则称\(\hat{\theta}\)\(\theta\)的MLE,即让样本出现概率最大的参数值。

三、核心定义:导出似然函数

当我们要估计\(\psi = g(\theta)\)时,\(g(\theta)\)不一定是一一映射(例如\(\psi = \theta^2\),一个\(\psi\)对应两个\(\theta\)),无法直接将\(\psi\)代入原似然函数,因此需要定义关于\(\psi\)的似然函数——导出似然

定义3.3.2 导出似然与\(\psi\)的MLE

\(X \sim f(x;\theta)\)\(\theta \in \Theta\)\(\psi = g(\theta) \in \Omega\)\(\Omega\)\(\psi\)的取值空间,即\(g\)的值域)。

  1. 定义原像集:\(g^{-1}(\psi) = \{\theta \in \Theta \mid g(\theta) = \psi\}\),即所有映射到\(\psi\)\(\theta\)的集合;
  2. 导出似然函数\(L^*(\psi) = \max_{\theta \in g^{-1}(\psi)} L(\theta)\)
    含义:对给定的\(\psi\),先在所有能得到该\(\psi\)\(\theta\)中,找到让原似然函数最大的值,作为\(\psi\)对应的似然值;
  3. \(\psi\)的最大似然估计:若\(\hat{\psi}\)满足\(L^*(\hat{\psi}) = \max_{\psi \in \Omega} L^*(\psi)\),则称\(\hat{\psi}\)\(\psi\)的MLE。

定义的核心逻辑:先对每个\(\psi\)做“局部最大化”,再对所有\(\psi\)做“全局最大化”,保证\(L^*(\hat{\psi})\)与原似然的全局最大值\(L(\hat{\theta})\)一致。


四、核心定理:不变原理与严格证明

定理3.3.3 最大似然估计的不变原理

\(X \sim f(x;\theta)\)\(\theta \in \Theta\)。若\(\theta\)的最大似然估计为\(\hat{\theta}\),则\(\psi = g(\theta)\)关于导出似然的最大似然估计为\(\hat{\psi} = g(\hat{\theta})\)

详细证明过程

证明目标:证明\(L^*(g(\hat{\theta})) \geq L^*(\psi)\)对所有\(\psi \in \Omega\)成立,即\(g(\hat{\theta})\)让导出似然\(L^*(\psi)\)达到全局最大值,符合\(\psi\)的MLE定义。

  1. \(\hat{\psi} = g(\hat{\theta})\),根据导出似然的定义,有:

    \[L^*(\hat{\psi}) = \max_{\theta \in g^{-1}(\hat{\psi})} L(\theta) \]

    \(L^*(\hat{\psi})\)是所有满足\(g(\theta)=\hat{\psi}\)\(\theta\)中,似然函数\(L(\theta)\)的最大值。

  2. 由于\(\hat{\psi} = g(\hat{\theta})\),因此\(\hat{\theta} \in g^{-1}(\hat{\psi})\)\(\hat{\theta}\)本身就在该原像集中)。
    根据最大值的性质:集合上的最大值≥集合内任意元素的函数值,因此:

    \[L^*(\hat{\psi}) = \max_{\theta \in g^{-1}(\hat{\psi})} L(\theta) \geq L(\hat{\theta}) \]

    得到第一个核心不等式。

  3. \(\hat{\theta}\)\(\theta\)的MLE,根据MLE的定义,\(\hat{\theta}\)让原似然在整个参数空间\(\Theta\)上达到全局最大值:

    \[L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta) \]

  4. 对任意\(\psi \in \Omega\),其原像集\(g^{-1}(\psi)\)\(\Theta\)的子集(所有\(\theta \in g^{-1}(\psi)\)都属于\(\Theta\))。
    根据最大值的性质:子集上的最大值≤全集上的最大值,因此:

    \[\max_{\theta \in g^{-1}(\psi)} L(\theta) \leq \max_{\theta \in \Theta} L(\theta) = L(\hat{\theta}) \]

    结合导出似然的定义\(L^*(\psi) = \max_{\theta \in g^{-1}(\psi)} L(\theta)\),可得:

    \[L^*(\psi) \leq L(\hat{\theta}), \quad \forall \psi \in \Omega \]

    得到第二个核心不等式。

  5. 联立两个不等式,对所有\(\psi \in \Omega\),有:

    \[L^*(\hat{\psi}) \geq L(\hat{\theta}) \geq L^*(\psi) \]

    \(L^*(\hat{\psi})\)\(L^*(\psi)\)\(\Omega\)上的全局最大值。

根据\(\psi\)的MLE的定义,\(\hat{\psi} = g(\hat{\theta})\)\(\psi = g(\theta)\)的最大似然估计,定理得证。

定理的强大之处:无论\(g(\theta)\)是线性/非线性、单射/多对一映射,只要是可测函数(实际应用中几乎所有函数都满足),不变原理均成立。


五、典型例题详细推导

例3.3.10 对数正态分布的MLE

题目:设\(X_1,\dots,X_n\)独立同分布,\(X_i \sim LN(\mu,\sigma^2)\)(对数正态分布),求\(\mu,\sigma^2\),以及\(a = E(X_1)\)\(\tau^2 = \text{Var}(X_1)\)的最大似然估计。

步骤1:转化为正态分布,求原参数的MLE

对数正态分布的定义:若\(X \sim LN(\mu,\sigma^2)\),则\(Y = \log X \sim N(\mu,\sigma^2)\)。令\(Y_i = \log X_i\),则\(Y_1,\dots,Y_n \sim N(\mu,\sigma^2)\)

正态分布的似然函数与对数似然:

\[L(\mu,\sigma^2) = \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^n \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n (Y_i - \mu)^2 \right\} \]

\[l(\mu,\sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n (Y_i - \mu)^2 \]

\(\mu\)求偏导并令导数为0:

\[\frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n (Y_i - \mu) = 0 \implies \hat{\mu} = \bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i \]

\(\sigma^2\)求偏导并令导数为0,代入\(\hat{\mu}=\bar{Y}\)

\[\frac{\partial l}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (Y_i - \bar{Y})^2 = 0 \]

\[\implies \hat{\sigma^2} = S_Y^2 = \frac{1}{n}\sum_{i=1}^n (Y_i - \bar{Y})^2 \]

步骤2:利用不变原理求\(a\)\(\tau^2\)的MLE

首先推导对数正态分布的期望和方差公式:

  • 期望:\(a = E(X) = E(e^Y)\),正态分布的矩生成函数\(M_Y(t) = E(e^{tY}) = \exp\left( \mu t + \frac{\sigma^2 t^2}{2} \right)\),令\(t=1\),得:

    \[a = \exp\left( \mu + \frac{\sigma^2}{2} \right) \]

  • 方差:\(\text{Var}(X) = E(X^2) - [E(X)]^2\)\(E(X^2)=E(e^{2Y})=M_Y(2)=\exp(2\mu + 2\sigma^2)\),因此:

    \[\tau^2 = \exp(2\mu + 2\sigma^2) - \exp\left( 2\mu + \sigma^2 \right) = a^2 (e^{\sigma^2} - 1) \]

根据不变原理,将\(\mu,\sigma^2\)替换为其MLE,直接得到:

\[\hat{a} = \exp\left( \hat{\mu} + \frac{\hat{\sigma^2}}{2} \right), \quad \hat{\tau^2} = \hat{a}^2 \left( \exp(\hat{\sigma^2}) - 1 \right) \]


例3.3.11 正态分布分位数的MLE

题目:设\(X_1,\dots,X_n\)独立同分布,\(X_i \sim N(\mu,\sigma^2)\)\(P(X_1 \leq x_p) = p\)\(x_p\)\(p\)分位数)。(1) 若\(p\)已知,求\(x_p\)的MLE;(2) 若\(x_p\)已知,求\(p\)的MLE。

步骤1:原参数的MLE与分位数关系

正态分布的原参数MLE:\(\hat{\mu} = \bar{X}\)\(\hat{\sigma^2} = S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2\),由不变原理,\(\sigma\)的MLE为\(\hat{\sigma} = S = \sqrt{S^2}\)

对正态分布标准化,\(Z = \frac{X - \mu}{\sigma} \sim N(0,1)\),标准正态分布函数为\(\Phi(\cdot)\),因此:

\[P(X \leq x_p) = P\left( \frac{X - \mu}{\sigma} \leq \frac{x_p - \mu}{\sigma} \right) = \Phi\left( \frac{x_p - \mu}{\sigma} \right) = p \]

记标准正态分布的\(p\)分位数为\(z_p\)(满足\(\Phi(z_p)=p\)\(p\)已知时\(z_p\)为常数),因此:

\[\frac{x_p - \mu}{\sigma} = z_p \implies x_p = \mu + \sigma z_p \]

步骤2:分情况应用不变原理

(1) \(p\)已知,求\(x_p\)的MLE:
\(x_p\)\(\mu,\sigma\)的线性函数\(x_p = g(\mu,\sigma) = \mu + \sigma z_p\),根据不变原理,直接代入MLE得:

\[\hat{x_p} = \hat{\mu} + \hat{\sigma} z_p = \bar{X} + S z_p \]

(2) \(x_p\)已知,求\(p\)的MLE:
\(p\)\(\mu,\sigma\)的非线性函数\(p = h(\mu,\sigma) = \Phi\left( \frac{x_p - \mu}{\sigma} \right)\),根据不变原理,代入MLE得:

\[\hat{p} = \Phi\left( \frac{x_p - \hat{\mu}}{\hat{\sigma}} \right) \]


六、不变原理的关键注意事项

  1. 适用范围:仅要求\(g(\theta)\)是可测函数(连续函数、分段连续函数均满足),无需一一映射,线性/非线性变换均成立;
  2. 与无偏性的本质区别:不变原理保持的是“最大似然”性质,不保持无偏性。例如\(\hat{\sigma^2}=S^2\)\(\sigma^2\)的有偏MLE,\(\hat{\sigma}=S\)也是\(\sigma\)的有偏MLE,但二者均符合MLE的定义;
  3. 多对一映射的处理:例如\(\psi = \theta^2\),若\(\hat{\theta}\)\(\theta\)的MLE,则\(\hat{\psi} = \hat{\theta}^2\)一定是\(\psi\)的MLE,无需额外调整;
  4. 全局最大值一致性:导出似然的定义保证了\(\hat{\psi}=g(\hat{\theta})\)对应的似然值,与原参数MLE的全局最大值一致,不会出现局部最优的问题。

七、知识点归纳总结表

分类 核心内容 详细说明
核心问题 参数函数的MLE求解 已知\(\hat{\theta}\)\(\theta\)的MLE,求\(\psi=g(\theta)\)的MLE
前置定义1 原像集\(g^{-1}(\psi)\) 所有满足\(g(\theta)=\psi\)\(\theta\)的集合,即\(\{\theta \in \Theta \mid g(\theta)=\psi\}\)
前置定义2 导出似然\(L^*(\psi)\) 对每个\(\psi\),在其原像集上对原似然取最大值:\(L^*(\psi) = \max_{\theta \in g^{-1}(\psi)} L(\theta)\)
前置定义3 \(\psi\)的MLE 让导出似然达到全局最大值的\(\hat{\psi}\),满足\(L^*(\hat{\psi}) = \max_{\psi \in \Omega} L^*(\psi)\)
核心定理 不变原理 \(\hat{\theta}\)\(\theta\)的MLE,则\(\hat{\psi}=g(\hat{\theta})\)\(\psi=g(\theta)\)的MLE
证明核心 两次不等式联立 1. \(L^*(g(\hat{\theta})) \geq L(\hat{\theta})\)(集合最大值≥集合内元素值)
2. \(L(\hat{\theta}) \geq L^*(\psi), \forall \psi\)(全集最大值≥子集最大值)
联立得\(L^*(g(\hat{\theta})) \geq L^*(\psi)\),符合MLE定义
核心优势 简化MLE求解 无需对参数函数重新构造似然、求导求极值,直接代入原参数的MLE即可得到结果
适用条件 可测函数\(g(\theta)\) 线性/非线性、单射/多对一映射均适用,实际应用中几乎无限制
关键对比 与无偏估计的区别 无偏性仅在线性变换下保持,非线性变换失效;
MLE的最大似然性在任意可测变换下均保持(不变原理)
典型应用 1. 标准差\(\sigma\)的MLE
2. 对数正态分布的期望/方差MLE
3. 正态分布分位数的MLE
均通过“原参数MLE代入函数表达式”直接得到结果,无需重新求解似然极值

posted on 2026-02-24 09:23  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航