夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

3.3.3最大似然估计的不变原理

最大似然估计的不变原理详细讲解与推导

一、背景与核心问题引入

在参数估计的实际应用中，我们往往不满足于仅估计总体的原始参数\(\theta\)，更多时候需要估计参数的函数\(\psi = g(\theta)\)。例如：

正态分布中，我们估计了方差\(\sigma^2\)，需要进一步得到标准差\(\sigma = \sqrt{\sigma^2}\)；
泊松分布中，我们估计了强度\(\lambda\)，需要得到\(\lambda\)的倒数\(\sigma = \lambda^{-1}\)；
对数正态分布中，我们估计了\(\mu,\sigma^2\)，需要得到总体的期望\(E(X)\)和方差\(\text{Var}(X)\)。

此时自然产生一个问题：若\(\hat{\theta}\)是\(\theta\)的最大似然估计（MLE），那么\(g(\hat{\theta})\)是否是\(\psi = g(\theta)\)的最大似然估计？

这里需要先明确一个关键对比：无偏性不具备非线性变换下的不变性，而最大似然性具备。例如：

若\(S^2\)是\(\sigma^2\)的无偏估计，一般\(S = \sqrt{S^2}\)不是\(\sigma\)的无偏估计（期望的非线性变换不保持无偏性）；
但对最大似然估计，若\(S^2\)是\(\sigma^2\)的MLE，则\(S\)一定是\(\sigma\)的MLE，这就是不变原理的核心价值。

二、前置基础：最大似然估计（MLE）回顾

设总体\(X \sim f(x;\theta)\)，\(\theta \in \Theta\)（\(\Theta\)为参数空间），\(X_1,X_2,\dots,X_n\)是来自\(X\)的独立同分布样本：

似然函数：\(L(\theta) = \prod_{i=1}^n f(X_i;\theta)\)，描述样本出现的概率关于参数\(\theta\)的函数；
对数似然函数：\(l(\theta) = \log L(\theta)\)，与\(L(\theta)\)有完全相同的最大值点；
\(\theta\)的最大似然估计：若\(\hat{\theta}\)满足\(L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta)\)，则称\(\hat{\theta}\)是\(\theta\)的MLE，即让样本出现概率最大的参数值。

三、核心定义：导出似然函数

当我们要估计\(\psi = g(\theta)\)时，\(g(\theta)\)不一定是一一映射（例如\(\psi = \theta^2\)，一个\(\psi\)对应两个\(\theta\)），无法直接将\(\psi\)代入原似然函数，因此需要定义关于\(\psi\)的似然函数——导出似然。

定义3.3.2 导出似然与\(\psi\)的MLE

设\(X \sim f(x;\theta)\)，\(\theta \in \Theta\)，\(\psi = g(\theta) \in \Omega\)（\(\Omega\)为\(\psi\)的取值空间，即\(g\)的值域）。

定义原像集：\(g^{-1}(\psi) = \{\theta \in \Theta \mid g(\theta) = \psi\}\)，即所有映射到\(\psi\)的\(\theta\)的集合；
导出似然函数：\(L^*(\psi) = \max_{\theta \in g^{-1}(\psi)} L(\theta)\)
含义：对给定的\(\psi\)，先在所有能得到该\(\psi\)的\(\theta\)中，找到让原似然函数最大的值，作为\(\psi\)对应的似然值；
\(\psi\)的最大似然估计：若\(\hat{\psi}\)满足\(L^*(\hat{\psi}) = \max_{\psi \in \Omega} L^*(\psi)\)，则称\(\hat{\psi}\)是\(\psi\)的MLE。

定义的核心逻辑：先对每个\(\psi\)做“局部最大化”，再对所有\(\psi\)做“全局最大化”，保证\(L^*(\hat{\psi})\)与原似然的全局最大值\(L(\hat{\theta})\)一致。

四、核心定理：不变原理与严格证明

定理3.3.3 最大似然估计的不变原理

设\(X \sim f(x;\theta)\)，\(\theta \in \Theta\)。若\(\theta\)的最大似然估计为\(\hat{\theta}\)，则\(\psi = g(\theta)\)关于导出似然的最大似然估计为\(\hat{\psi} = g(\hat{\theta})\)。

详细证明过程

证明目标：证明\(L^*(g(\hat{\theta})) \geq L^*(\psi)\)对所有\(\psi \in \Omega\)成立，即\(g(\hat{\theta})\)让导出似然\(L^*(\psi)\)达到全局最大值，符合\(\psi\)的MLE定义。

记\(\hat{\psi} = g(\hat{\theta})\)，根据导出似然的定义，有：

\[L^*(\hat{\psi}) = \max_{\theta \in g^{-1}(\hat{\psi})} L(\theta) \]
即\(L^*(\hat{\psi})\)是所有满足\(g(\theta)=\hat{\psi}\)的\(\theta\)中，似然函数\(L(\theta)\)的最大值。
由于\(\hat{\psi} = g(\hat{\theta})\)，因此\(\hat{\theta} \in g^{-1}(\hat{\psi})\)（\(\hat{\theta}\)本身就在该原像集中）。
根据最大值的性质：集合上的最大值≥集合内任意元素的函数值，因此：

\[L^*(\hat{\psi}) = \max_{\theta \in g^{-1}(\hat{\psi})} L(\theta) \geq L(\hat{\theta}) \]
得到第一个核心不等式。
由\(\hat{\theta}\)是\(\theta\)的MLE，根据MLE的定义，\(\hat{\theta}\)让原似然在整个参数空间\(\Theta\)上达到全局最大值：

\[L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta) \]
对任意\(\psi \in \Omega\)，其原像集\(g^{-1}(\psi)\)是\(\Theta\)的子集（所有\(\theta \in g^{-1}(\psi)\)都属于\(\Theta\)）。
根据最大值的性质：子集上的最大值≤全集上的最大值，因此：

\[\max_{\theta \in g^{-1}(\psi)} L(\theta) \leq \max_{\theta \in \Theta} L(\theta) = L(\hat{\theta}) \]
结合导出似然的定义\(L^*(\psi) = \max_{\theta \in g^{-1}(\psi)} L(\theta)\)，可得：

\[L^*(\psi) \leq L(\hat{\theta}), \quad \forall \psi \in \Omega \]
得到第二个核心不等式。
联立两个不等式，对所有\(\psi \in \Omega\)，有：

\[L^*(\hat{\psi}) \geq L(\hat{\theta}) \geq L^*(\psi) \]
即\(L^*(\hat{\psi})\)是\(L^*(\psi)\)在\(\Omega\)上的全局最大值。

根据\(\psi\)的MLE的定义，\(\hat{\psi} = g(\hat{\theta})\)是\(\psi = g(\theta)\)的最大似然估计，定理得证。

定理的强大之处：无论\(g(\theta)\)是线性/非线性、单射/多对一映射，只要是可测函数（实际应用中几乎所有函数都满足），不变原理均成立。

五、典型例题详细推导

例3.3.10 对数正态分布的MLE

题目：设\(X_1,\dots,X_n\)独立同分布，\(X_i \sim LN(\mu,\sigma^2)\)（对数正态分布），求\(\mu,\sigma^2\)，以及\(a = E(X_1)\)，\(\tau^2 = \text{Var}(X_1)\)的最大似然估计。

步骤1：转化为正态分布，求原参数的MLE

对数正态分布的定义：若\(X \sim LN(\mu,\sigma^2)\)，则\(Y = \log X \sim N(\mu,\sigma^2)\)。令\(Y_i = \log X_i\)，则\(Y_1,\dots,Y_n \sim N(\mu,\sigma^2)\)。

正态分布的似然函数与对数似然：

\[L(\mu,\sigma^2) = \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^n \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n (Y_i - \mu)^2 \right\} \]

\[l(\mu,\sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n (Y_i - \mu)^2 \]

对\(\mu\)求偏导并令导数为0：

\[\frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n (Y_i - \mu) = 0 \implies \hat{\mu} = \bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i \]

对\(\sigma^2\)求偏导并令导数为0，代入\(\hat{\mu}=\bar{Y}\)：

\[\frac{\partial l}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (Y_i - \bar{Y})^2 = 0 \]

\[\implies \hat{\sigma^2} = S_Y^2 = \frac{1}{n}\sum_{i=1}^n (Y_i - \bar{Y})^2 \]

步骤2：利用不变原理求\(a\)和\(\tau^2\)的MLE

首先推导对数正态分布的期望和方差公式：

期望：\(a = E(X) = E(e^Y)\)，正态分布的矩生成函数\(M_Y(t) = E(e^{tY}) = \exp\left( \mu t + \frac{\sigma^2 t^2}{2} \right)\)，令\(t=1\)，得：
\[a = \exp\left( \mu + \frac{\sigma^2}{2} \right) \]
方差：\(\text{Var}(X) = E(X^2) - [E(X)]^2\)，\(E(X^2)=E(e^{2Y})=M_Y(2)=\exp(2\mu + 2\sigma^2)\)，因此：
\[\tau^2 = \exp(2\mu + 2\sigma^2) - \exp\left( 2\mu + \sigma^2 \right) = a^2 (e^{\sigma^2} - 1) \]

根据不变原理，将\(\mu,\sigma^2\)替换为其MLE，直接得到：

\[\hat{a} = \exp\left( \hat{\mu} + \frac{\hat{\sigma^2}}{2} \right), \quad \hat{\tau^2} = \hat{a}^2 \left( \exp(\hat{\sigma^2}) - 1 \right) \]

例3.3.11 正态分布分位数的MLE

题目：设\(X_1,\dots,X_n\)独立同分布，\(X_i \sim N(\mu,\sigma^2)\)，\(P(X_1 \leq x_p) = p\)（\(x_p\)为\(p\)分位数）。(1) 若\(p\)已知，求\(x_p\)的MLE；(2) 若\(x_p\)已知，求\(p\)的MLE。

步骤1：原参数的MLE与分位数关系

正态分布的原参数MLE：\(\hat{\mu} = \bar{X}\)，\(\hat{\sigma^2} = S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2\)，由不变原理，\(\sigma\)的MLE为\(\hat{\sigma} = S = \sqrt{S^2}\)。

对正态分布标准化，\(Z = \frac{X - \mu}{\sigma} \sim N(0,1)\)，标准正态分布函数为\(\Phi(\cdot)\)，因此：

\[P(X \leq x_p) = P\left( \frac{X - \mu}{\sigma} \leq \frac{x_p - \mu}{\sigma} \right) = \Phi\left( \frac{x_p - \mu}{\sigma} \right) = p \]

记标准正态分布的\(p\)分位数为\(z_p\)（满足\(\Phi(z_p)=p\)，\(p\)已知时\(z_p\)为常数），因此：

\[\frac{x_p - \mu}{\sigma} = z_p \implies x_p = \mu + \sigma z_p \]

步骤2：分情况应用不变原理

(1) \(p\)已知，求\(x_p\)的MLE：
\(x_p\)是\(\mu,\sigma\)的线性函数\(x_p = g(\mu,\sigma) = \mu + \sigma z_p\)，根据不变原理，直接代入MLE得：

\[\hat{x_p} = \hat{\mu} + \hat{\sigma} z_p = \bar{X} + S z_p \]

(2) \(x_p\)已知，求\(p\)的MLE：
\(p\)是\(\mu,\sigma\)的非线性函数\(p = h(\mu,\sigma) = \Phi\left( \frac{x_p - \mu}{\sigma} \right)\)，根据不变原理，代入MLE得：

\[\hat{p} = \Phi\left( \frac{x_p - \hat{\mu}}{\hat{\sigma}} \right) \]

六、不变原理的关键注意事项

适用范围：仅要求\(g(\theta)\)是可测函数（连续函数、分段连续函数均满足），无需一一映射，线性/非线性变换均成立；
与无偏性的本质区别：不变原理保持的是“最大似然”性质，不保持无偏性。例如\(\hat{\sigma^2}=S^2\)是\(\sigma^2\)的有偏MLE，\(\hat{\sigma}=S\)也是\(\sigma\)的有偏MLE，但二者均符合MLE的定义；
多对一映射的处理：例如\(\psi = \theta^2\)，若\(\hat{\theta}\)是\(\theta\)的MLE，则\(\hat{\psi} = \hat{\theta}^2\)一定是\(\psi\)的MLE，无需额外调整；
全局最大值一致性：导出似然的定义保证了\(\hat{\psi}=g(\hat{\theta})\)对应的似然值，与原参数MLE的全局最大值一致，不会出现局部最优的问题。

七、知识点归纳总结表

分类	核心内容	详细说明
核心问题	参数函数的MLE求解	已知\(\hat{\theta}\)是\(\theta\)的MLE，求\(\psi=g(\theta)\)的MLE
前置定义1	原像集\(g^{-1}(\psi)\)	所有满足\(g(\theta)=\psi\)的\(\theta\)的集合，即\(\{\theta \in \Theta \mid g(\theta)=\psi\}\)
前置定义2	导出似然\(L^*(\psi)\)	对每个\(\psi\)，在其原像集上对原似然取最大值：\(L^*(\psi) = \max_{\theta \in g^{-1}(\psi)} L(\theta)\)
前置定义3	\(\psi\)的MLE	让导出似然达到全局最大值的\(\hat{\psi}\)，满足\(L^(\hat{\psi}) = \max_{\psi \in \Omega} L^(\psi)\)
核心定理	不变原理	若\(\hat{\theta}\)是\(\theta\)的MLE，则\(\hat{\psi}=g(\hat{\theta})\)是\(\psi=g(\theta)\)的MLE
证明核心	两次不等式联立	1. \(L^(g(\hat{\theta})) \geq L(\hat{\theta})\)（集合最大值≥集合内元素值） 2. \(L(\hat{\theta}) \geq L^(\psi), \forall \psi\)（全集最大值≥子集最大值）联立得\(L^(g(\hat{\theta})) \geq L^(\psi)\)，符合MLE定义
核心优势	简化MLE求解	无需对参数函数重新构造似然、求导求极值，直接代入原参数的MLE即可得到结果
适用条件	可测函数\(g(\theta)\)	线性/非线性、单射/多对一映射均适用，实际应用中几乎无限制
关键对比	与无偏估计的区别	无偏性仅在线性变换下保持，非线性变换失效； MLE的最大似然性在任意可测变换下均保持（不变原理）
典型应用	1. 标准差\(\sigma\)的MLE 2. 对数正态分布的期望/方差MLE 3. 正态分布分位数的MLE	均通过“原参数MLE代入函数表达式”直接得到结果，无需重新求解似然极值

posted on 2026-02-24 09:23 Indian_Mysore 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一

3.3.3最大似然估计的不变原理

最大似然估计的不变原理详细讲解与推导

一、背景与核心问题引入

二、前置基础：最大似然估计（MLE）回顾

三、核心定义：导出似然函数

定义3.3.2 导出似然与\(\psi\)的MLE

四、核心定理：不变原理与严格证明

定理3.3.3 最大似然估计的不变原理

详细证明过程

五、典型例题详细推导

例3.3.10 对数正态分布的MLE

步骤1：转化为正态分布，求原参数的MLE

步骤2：利用不变原理求\(a\)和\(\tau^2\)的MLE

例3.3.11 正态分布分位数的MLE

步骤1：原参数的MLE与分位数关系

步骤2：分情况应用不变原理

六、不变原理的关键注意事项

七、知识点归纳总结表

导航

公告

昆仑山:眼中无形心中有穴之穴人合一

3.3.3最大似然估计的不变原理

最大似然估计的不变原理 详细讲解与推导

一、背景与核心问题引入

二、前置基础：最大似然估计（MLE）回顾

三、核心定义：导出似然函数

定义3.3.2 导出似然与\(\psi\)的MLE

四、核心定理：不变原理与严格证明

定理3.3.3 最大似然估计的不变原理

详细证明过程

五、典型例题详细推导

例3.3.10 对数正态分布的MLE

步骤1：转化为正态分布，求原参数的MLE

步骤2：利用不变原理求\(a\)和\(\tau^2\)的MLE

例3.3.11 正态分布分位数的MLE

步骤1：原参数的MLE与分位数关系

步骤2：分情况应用不变原理

六、不变原理的关键注意事项

七、知识点归纳总结表

导航

公告

最大似然估计的不变原理详细讲解与推导