3.3.1最大似然估计(MLE)
最大似然估计(MLE)全知识点详解与推导
作为统计学中最核心、应用最广泛的参数估计方法,最大似然估计的核心思想是“概率最大的事件最可能发生”:当我们已经获得一组样本观测值时,使得这组观测值出现的概率(概率密度)最大的参数值,就是对真实参数的最优估计。
一、核心定义与基础性质证明
1. 基本设定
设总体 \(X\) 的概率密度(连续型)/分布律(离散型)为 \(f(x;\theta)\),其中 \(\theta \in \Theta\) 是待估未知参数,\(\Theta\) 为参数空间;\(X_1,X_2,\dots,X_n\) 是来自 \(X\) 的独立同分布(i.i.d.)样本,\(x_1,x_2,\dots,x_n\) 是对应的样本观测值。
2. 似然函数与对数似然函数
-
似然函数:将样本联合分布视为参数 \(\theta\) 的函数,称为似然函数
\[L(\theta;x) = L(\theta) = \prod_{i=1}^n f(x_i;\theta), \quad \theta \in \Theta \]本质:固定样本观测值 \(x\),描述不同参数 \(\theta\) 下,观测到当前样本的“可能性大小”。
-
对数似然函数:对似然函数取自然对数,记为
\[l(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i;\theta) \]
核心性质证明:对数似然与原似然同解
命题:若分布族 \(\{f(x;\theta),\theta\in\Theta\}\) 有共同支撑(即 \(f(x;\theta)>0\) 的 \(x\) 范围与 \(\theta\) 无关),则 \(L(\theta)\) 和 \(l(\theta)\) 的最大值点完全相同。
证明:对数函数 \(y=\ln t\) 在 \(t>0\) 上是严格单调递增函数,因此对任意 \(\theta_1,\theta_2\in\Theta\),有
因此使 \(L(\theta)\) 取最大值的 \(\hat{\theta}\),与使 \(l(\theta)\) 取最大值的 \(\hat{\theta}\) 完全一致。
意义:将乘积形式的似然函数转化为求和形式,大幅简化求导计算,是MLE求解的核心技巧。
3. 最大似然估计的严格定义
若存在统计量 \(\hat{\theta} = \hat{\theta}(X_1,X_2,\dots,X_n)\),使得对任意 \(\theta\in\Theta\),都有
则称 \(\hat{\theta}\) 为 \(\theta\) 的最大似然估计(MLE),对应的观测值 \(\hat{\theta}(x_1,\dots,x_n)\) 为最大似然估计值。
4. 关键注记的证明与解释
-
似然函数可忽略与θ无关的正常数
若 \(c(x)>0\) 且与 \(\theta\) 无关,则 \(c(x)L(\theta)\) 与 \(L(\theta)\) 最大值点相同。
证明:\(c(x)>0\) 时,\(\max_{\theta} c(x)L(\theta) = c(x)\max_{\theta} L(\theta)\),两者最大值点完全一致。 -
似然方程(可微情形的必要条件)
若 \(l(\theta)\) 关于 \(\theta\) 可微,则最大值点一定满足一阶导数为0,即似然方程:\[\frac{dl(\theta)}{d\theta} = 0 \quad (\text{单参数}) \quad ; \quad \frac{\partial l(\theta)}{\partial \theta_i} = 0 \quad (\text{多参数}) \]注意:似然方程的解仅为驻点,不一定是最大值点,需验证二阶导数<0,或结合单调性/边界情况判断;若似然函数不可微(如均匀分布),则不能用似然方程,需直接分析单调性。
-
MLE必为充分统计量的函数
证明:根据因子分解定理,若 \(T(X)\) 是 \(\theta\) 的充分统计量,则样本联合密度可分解为\[f(x;\theta) = g(T(x);\theta) \cdot h(x) \]其中 \(h(x)\) 与 \(\theta\) 无关,\(g\) 仅通过 \(T(x)\) 依赖样本。
似然函数 \(L(\theta) = g(T(x);\theta) \cdot h(x)\),由注记1,\(L(\theta)\) 的最大值点等价于 \(g(T(x);\theta)\) 的最大值点,因此 \(\hat{\theta}\) 必为 \(T(x)\) 的函数,即 \(\hat{\theta}=\hat{\theta}(T(x))\)。
意义:MLE充分利用了样本中关于参数的全部信息,符合统计推断的充分性原则。
二、MLE的通用求解步骤
情形1:似然函数关于参数可微(指数族分布,如二项、泊松、正态)
- 写出样本联合分布,构造似然函数 \(L(\theta)\);
- 取对数得到对数似然函数 \(l(\theta)\),忽略与 \(\theta\) 无关的常数项;
- 对 \(\theta\) 求导(多参数求偏导),令导数为0,得到似然方程/方程组;
- 求解似然方程,得到驻点;
- 验证驻点为最大值点(二阶导数<0,或结合分布性质判断全局最优);
- 用样本统计量表示MLE的最终形式。
情形2:似然函数不可微/似然方程无解(支撑与θ有关,如均匀分布)
- 写出似然函数,通过示性函数明确样本与参数的约束条件;
- 分析似然函数在参数空间上的单调性;
- 结合约束条件,找到使似然函数最大的参数值,即为MLE。
三、经典分布的MLE详细推导
例1:二项分布与伯努利分布的MLE
(1) 单样本二项分布 \(X \sim b(n,p)\),求 \(p\) 的MLE
二项分布的分布律:
- 似然函数:\(L(p) = \binom{n}{x} p^x (1-p)^{n-x}\)
- 对数似然:\(l(p) = \ln\binom{n}{x} + x\ln p + (n-x)\ln(1-p)\)(忽略常数项 \(\ln\binom{n}{x}\))
- 求导:\(\frac{dl}{dp} = \frac{x}{p} - \frac{n-x}{1-p}\)
- 似然方程:\(\frac{x}{p} - \frac{n-x}{1-p} = 0\),解得 \(p = \frac{x}{n}\)
- 最大值验证:二阶导数 \(\frac{d^2l}{dp^2} = -\frac{x}{p^2} - \frac{n-x}{(1-p)^2} < 0\),驻点为全局最大值点
- 最终结果:\(p\) 的MLE为 \(\hat{p} = \frac{X}{n}\)
(2) 伯努利分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim b(1,p)\),求 \(p\) 的MLE
伯努利分布的分布律:\(f(x_i;p) = p^{x_i}(1-p)^{1-x_i}, \ x_i\in\{0,1\}\)
- 似然函数:\(L(p) = \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i} (1-p)^{n-\sum x_i}\),令 \(t=\sum_{i=1}^n x_i\)
- 对数似然:\(l(p) = t\ln p + (n-t)\ln(1-p)\)
- 求导并令导数为0,解得 \(p = \frac{t}{n} = \bar{x}\)
- 二阶导数<0,验证为最大值点
- 最终结果:\(\hat{p} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}\)(样本均值)
(3) 标记重捕法(鱼塘估计)
鱼塘总鱼数 \(N\),先捕 \(m\) 条标记放回,再捕 \(n\) 条,其中 \(x\) 条带标记。带标记鱼的比例 \(p=\frac{m}{N}\),第二次捕鱼 \(X\sim b(n,p)\)。
由(1)得 \(p\) 的MLE为 \(\hat{p}=\frac{x}{n}\),代入 \(p=\frac{m}{N}\),解得 \(N\) 的MLE:
代入 \(m=500,n=1000,x=100\),得 \(\hat{N}=5000\)。
例2:泊松分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim P(\lambda)\),求 \(\lambda\) 的MLE
泊松分布的分布律:
- 似然函数:\(L(\lambda) = \prod_{i=1}^n \frac{e^{-\lambda}\lambda^{x_i}}{x_i!} = e^{-n\lambda} \lambda^{\sum x_i} \cdot \frac{1}{\prod x_i!}\)
- 对数似然:\(l(\lambda) = -n\lambda + (\sum x_i)\ln\lambda - \ln(\prod x_i!)\)(忽略常数项)
- 求导:\(\frac{dl}{d\lambda} = -n + \frac{\sum x_i}{\lambda}\)
- 似然方程:\(-n + \frac{\sum x_i}{\lambda}=0\),解得 \(\lambda = \frac{1}{n}\sum x_i = \bar{x}\)
- 最大值验证:二阶导数 \(\frac{d^2l}{d\lambda^2} = -\frac{\sum x_i}{\lambda^2} < 0\),驻点为全局最大值点
- 最终结果:\(\hat{\lambda} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}\)(样本均值)
应用:白细胞数据
样本量 \(n=1008\),计算得 \(\sum k\cdot n_k=2846\),因此 \(\hat{\lambda}=\bar{x}=\frac{2846}{1008}\approx2.82\),即平均每个细胞单位的白细胞数为2.82。
例3:正态分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim N(\mu,\sigma^2)\),求 \(\mu,\sigma^2\) 的MLE
正态分布的概率密度:
- 似然函数:\[L(\mu,\sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 \right\} \]
- 对数似然:\[l(\mu,\sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 \]
- 求偏导并构造似然方程组:
- 对 \(\mu\) 求偏导:\(\frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n (x_i-\mu) = 0\),解得 \(\mu = \frac{1}{n}\sum x_i = \bar{x}\)
- 对 \(\sigma^2\) 求偏导:\(\frac{\partial l}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (x_i-\mu)^2 = 0\),解得 \(\sigma^2 = \frac{1}{n}\sum (x_i-\mu)^2\)
- 代入求解:将 \(\mu=\bar{x}\) 代入,得 \(\sigma^2 = \frac{1}{n}\sum (x_i-\bar{x})^2\)
- 最大值验证:
- 对任意固定 \(\sigma^2\),\(\sum (x_i-\mu)^2\) 在 \(\mu=\bar{x}\) 时取最小值,因此 \(l(\mu,\sigma^2)\) 在 \(\mu=\bar{x}\) 时取最大值;
- 代入 \(\mu=\bar{x}\) 后,二阶导数 \(\frac{d^2l}{d(\sigma^2)^2} = -\frac{n}{2\hat{\sigma}^4} < 0\),因此 \(\hat{\sigma}^2\) 为最大值点。
- 最终结果:\[\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i, \quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2 \]
拓展:一元线性回归模型的MLE
模型:\(X_i = a + bu_i + e_i\),\(e_i \text{ i.i.d.} \sim N(0,\sigma^2)\),待估参数 \(a,b,\sigma^2\)。
- 似然函数:\(L(a,b,\sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i -a -bu_i)^2 \right\}\)
- 最大化似然等价于最小化残差平方和 \(R(a,b)=\sum (x_i -a -bu_i)^2\)
- 求导解得:\[\hat{b} = \frac{Q_{xu}}{Q_{uu}}, \quad \hat{a} = \bar{X} - \hat{b}\bar{u} \]其中 \(Q_{xu}=\sum (x_i-\bar{x})(u_i-\bar{u})\),\(Q_{uu}=\sum (u_i-\bar{u})^2\)
- \(\sigma^2\) 的MLE:\(\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \hat{a} - \hat{b}u_i)^2\)
结论:正态误差假设下,线性回归系数的MLE与最小二乘估计(LSE)完全等价。
例4:均匀分布的MLE(不可微情形)
均匀分布 \(R(a,b)\) 的概率密度:\(f(x;a,b)=\frac{1}{b-a}, \ a\leq x\leq b\),样本联合密度为:
其中 \(x_{(1)}=\min(x_1,\dots,x_n)\)(样本最小值),\(x_{(n)}=\max(x_1,\dots,x_n)\)(样本最大值),\(I\{\cdot\}\) 为示性函数。
(1) \(X_1 \sim R(0,\theta), \theta>0\),求 \(\theta\) 的MLE
似然函数:\(L(\theta) = \frac{1}{\theta^n} \cdot I\{\theta \geq x_{(n)}\}\)
- 当 \(\theta \geq x_{(n)}\) 时,\(L(\theta)=\theta^{-n}\),关于 \(\theta\) 严格单调递减,因此 \(\theta\) 越小,\(L(\theta)\) 越大;
- \(\theta\) 的最小取值为 \(x_{(n)}\),此时 \(L(\theta)\) 取最大值。
最终结果:\(\hat{\theta} = X_{(n)}\)(样本最大值)。
(2) \(X_1 \sim R(\theta,3\theta), \theta>0\),求 \(\theta\) 的MLE
似然函数:\(L(\theta) = \frac{1}{(2\theta)^n} \cdot I\left\{ \frac{x_{(n)}}{3} \leq \theta \leq x_{(1)} \right\}\)
- 区间内 \(L(\theta)\) 关于 \(\theta\) 严格单调递减,\(\theta\) 最小值为 \(\frac{x_{(n)}}{3}\),此时 \(L(\theta)\) 最大。
最终结果:\(\hat{\theta} = \frac{X_{(n)}}{3}\)。
(3) \(X_1 \sim R(\theta,\theta+1), \theta\in\mathbb{R}\),求 \(\theta\) 的MLE
似然函数:\(L(\theta) = I\{ x_{(n)}-1 \leq \theta \leq x_{(1)} \}\)
- 区间内 \(L(\theta)=1\)(最大值),区间外 \(L(\theta)=0\),因此MLE不唯一,所有满足 \(X_{(n)}-1 \leq \hat{\theta} \leq X_{(1)}\) 的统计量都是 \(\theta\) 的MLE。
(4) \(X_1 \sim R(\mu-\sigma/2, \mu+\sigma/2), \sigma>0\),求 \(\mu,\sigma\) 的MLE
似然函数:\(L(\mu,\sigma) = \frac{1}{\sigma^n} \cdot I\left\{ \mu-\frac{\sigma}{2} \leq x_{(1)}, \ x_{(n)} \leq \mu+\frac{\sigma}{2} \right\}\)
- 最大化 \(L(\mu,\sigma)\) 等价于最小化 \(\sigma\),约束条件要求 \(\sigma \geq x_{(n)}-x_{(1)}\),因此 \(\sigma\) 的最小值为样本极差 \(x_{(n)}-x_{(1)}\);
- 代入 \(\sigma=x_{(n)}-x_{(1)}\),解得 \(\mu = \frac{x_{(1)}+x_{(n)}}{2}\)。
最终结果:
四、MLE的核心性质总结
| 性质 | 内容 | 补充说明 |
|---|---|---|
| 不变性 | 若 \(\hat{\theta}\) 是 \(\theta\) 的MLE,\(g(\theta)\) 是 \(\theta\) 的单值可测函数,则 \(g(\hat{\theta})\) 是 \(g(\theta)\) 的MLE | 例:正态分布中 \(\sigma\) 的MLE为 \(\sqrt{\hat{\sigma}^2}\),无需重新推导 |
| 充分性 | MLE一定是充分统计量的函数 | 保证MLE充分利用样本中的参数信息,无信息损失 |
| 渐近正态性 | 正则条件下,\(\sqrt{n}(\hat{\theta}-\theta) \xrightarrow{d} N(0, 1/I(\theta))\),\(I(\theta)\) 为Fisher信息 | 大样本下,MLE渐近无偏、渐近有效,达到C-R方差下界 |
| 强相合性 | 正则条件下,\(\hat{\theta} \xrightarrow{a.s.} \theta \ (n\to\infty)\) | 样本量足够大时,MLE几乎必然收敛到真实参数 |
| 无偏性 | MLE不一定是无偏估计 | 例:正态分布的 \(\hat{\sigma}^2\)、均匀分布的 \(\hat{\theta}=X_{(n)}\) 均为有偏估计,需修正后可得到无偏估计 |
五、常见分布MLE汇总表
| 总体分布 | 待估参数 | MLE表达式 | 核心说明 |
|---|---|---|---|
| 二项分布 \(b(n,p)\) | 成功概率 \(p\) | \(\hat{p} = \frac{X}{n}\) | 单样本情形,驻点为全局最大值点 |
| 伯努利分布 \(b(1,p)\) | 成功概率 \(p\) | \(\hat{p} = \bar{X} = \frac{1}{n}\sum X_i\) | n个样本情形,与二项分布结果等价 |
| 泊松分布 \(P(\lambda)\) | 强度参数 \(\lambda\) | \(\hat{\lambda} = \bar{X} = \frac{1}{n}\sum X_i\) | 与总体期望一致,矩估计与MLE结果相同 |
| 正态分布 \(N(\mu,\sigma^2)\) | 均值 \(\mu\) | \(\hat{\mu} = \bar{X}\) | 无偏估计,矩估计与MLE结果相同 |
| 正态分布 \(N(\mu,\sigma^2)\) | 方差 \(\sigma^2\) | \(\hat{\sigma}^2 = \frac{1}{n}\sum (X_i-\bar{X})^2\) | 有偏估计,无偏修正为 \(S^2=\frac{1}{n-1}\sum (X_i-\bar{X})^2\) |
| 均匀分布 \(R(0,\theta)\) | 区间上限 \(\theta\) | \(\hat{\theta} = X_{(n)}\)(样本最大值) | 似然函数不可微,在边界取最大值,与矩估计结果不同 |
| 均匀分布 \(R(a,b)\) | 区间端点 \(a,b\) | \(\hat{a}=X_{(1)},\ \hat{b}=X_{(n)}\) | 样本最小值与最大值,支撑与参数相关,无法用似然方程求解 |
| 均匀分布 \(R(\mu-\sigma/2,\mu+\sigma/2)\) | 位置参数 \(\mu\)、尺度参数 \(\sigma\) | \(\hat{\mu}=\frac{X_{(1)}+X_{(n)}}{2},\ \hat{\sigma}=X_{(n)}-X_{(1)}\) | 由样本极值与极差构造,体现MLE对边界信息的利用 |
补充分布MLE全知识点详解与推导
承接之前的最大似然估计核心框架,我们继续对指数分布(含位置参数、截尾数据)、多项分布、拉普拉斯分布的MLE进行完整推导与讲解,覆盖可微求解、约束优化、非可微极值求解、截尾数据等核心场景。
一、例3.3.5 指数分布(伽马分布特例)的MLE详细推导
首先明确伽马分布的参数化:本教材中,\(\Gamma(\alpha,\beta)\) 表示形状参数为\(\alpha\)、尺度参数为\(\beta\)的伽马分布,概率密度为:
当\(\alpha=1\)时,伽马分布退化为指数分布\(\text{Exp}(1/\beta)\),即\(f(x)=\frac{1}{\beta}e^{-x/\beta}, x>0\),期望为\(\beta\)。
(1) 单参数指数分布 \(X_1 \sim \Gamma(\lambda,1)\)(即\(\text{Exp}(\lambda)\)),求\(\lambda\)的MLE
设\(X_1,X_2,\dots,X_n\)独立同分布,\(X_i \sim \Gamma(\lambda,1)\),结合教材推导,此处为\(\alpha=1\)的指数分布,单个样本的概率密度为:
步骤1:构造似然函数
样本联合密度(似然函数)为各样本密度的乘积:
其中\(x_{(1)}=\min(x_1,\dots,x_n)\)为样本最小值,示性函数\(I\{\cdot\}\)保证样本非负,与\(\lambda\)无关,后续可忽略。
步骤2:构造对数似然函数
对似然函数取自然对数,忽略与\(\lambda\)无关的项:
步骤3:求导构造似然方程
对\(\lambda\)求一阶导数,令导数为0:
步骤4:求解与最大值验证
解方程得:\(\lambda = \frac{n}{\sum_{i=1}^n x_i} = \frac{1}{\bar{x}}\),其中\(\bar{x}=\frac{1}{n}\sum x_i\)为样本均值。
二阶导数验证:\(\frac{d^2l}{d\lambda^2} = -\frac{n}{\lambda^2} < 0\),因此驻点为全局最大值点。
最终结果
\(\lambda\)的最大似然估计为:
补充注记:若\(X_1 \sim \Gamma(1/\sigma,1)\)(即指数分布\(\text{Exp}(1/\sigma)\),期望为\(\sigma\)),代入上式可得平均寿命\(\sigma\)的MLE为\(\hat{\sigma} = \bar{X}\),与矩估计结果一致。
(2) 带位置参数的指数分布 \(X_1 \sim \mu + \Gamma(1,1)\),求\(\mu\)的MLE
该分布为平移指数分布,单个样本的概率密度为:
即\(X_i - \mu \sim \text{Exp}(1)\),支撑为\(x_i \geq \mu\),与待估参数\(\mu\)相关,无法用似然方程求导求解,需直接分析似然函数的单调性。
步骤1:构造似然函数
样本联合密度:
步骤2:分析单调性与最大值
- 当\(\mu \leq x_{(1)}\)时,示性函数为1,似然函数\(L(\mu) = e^{n\mu - \sum x_i}\),关于\(\mu\)严格单调递增,因此\(\mu\)越大,\(L(\mu)\)越大;
- \(\mu\)的最大取值为\(x_{(1)}\)(若\(\mu > x_{(1)}\),示性函数为0,似然函数为0,无意义)。
因此当\(\mu = x_{(1)}\)时,似然函数取得最大值。
最终结果
\(\mu\)的最大似然估计为:
(3) 双参数平移指数分布 \(X_1 \sim \mu + \Gamma(\lambda,1)\),求\(\lambda,\mu\)的MLE
该分布为带位置参数\(\mu\)、率参数\(\lambda\)的双参数指数分布,单个样本密度为:
步骤1:构造似然函数
样本联合密度:
整理得:
步骤2:分步求解MLE(先固定\(\lambda\),求\(\mu\)的最优解)
对任意固定的\(\lambda>0\),似然函数中与\(\mu\)相关的项为\(e^{n\lambda \mu} \cdot I\{x_{(1)} \geq \mu\}\):
- 当\(\mu \leq x_{(1)}\)时,\(e^{n\lambda \mu}\)关于\(\mu\)严格单调递增,因此\(\mu\)的最优取值为\(x_{(1)}\),即\(\hat{\mu}=X_{(1)}\)。
步骤3:代入\(\hat{\mu}\),求\(\lambda\)的MLE
将\(\mu = x_{(1)}\)代入似然函数,得到仅关于\(\lambda\)的对数似然函数:
对\(\lambda\)求导并令导数为0:
解得:\(\lambda = \frac{n}{\sum_{i=1}^n (x_i - x_{(1)})}\),二阶导数\(\frac{d^2l}{d\lambda^2}=-\frac{n}{\lambda^2}<0\),验证为最大值点。
步骤4:全局最优性验证
对任意\((\lambda,\mu)\),有:
因此\(\hat{\lambda},\hat{\mu}\)为全局最优的MLE。
最终结果
(4) 截尾数据下指数分布的MLE(可靠性/生存分析核心场景)
设器件寿命\(X_1 \sim \Gamma(\sigma^{-1},1)\),即\(X_i \sim \text{Exp}(1/\sigma)\),概率密度\(f(x)=\frac{1}{\sigma}e^{-x/\sigma}, x>0\),期望\(E(X)=\sigma\)为平均寿命。截尾数据分为定数截尾和定时截尾两类,分别推导如下:
(a) 定数截尾数据
试验设计:对\(n\)个器件进行寿命试验,直到观测到前\(r\)个失效的寿命数据\(X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(r)}\),剩余\(n-r\)个器件在\(X_{(r)}\)时刻仍未失效,停止试验。
步骤1:推导截尾样本的联合密度
次序统计量的联合密度公式:前\(r\)个次序统计量的联合密度为
其中\(F(x)=1-e^{-x/\sigma}\)为指数分布的分布函数,\(1-F(y_r)=e^{-y_r/\sigma}\)。
代入指数分布的密度与生存函数,得:
步骤2:构造对数似然函数
忽略与\(\sigma\)无关的常数项,对数似然函数为:
步骤3:求导求解似然方程
对\(\sigma\)求一阶导数并令其为0:
解方程得:
二阶导数验证:\(\frac{d^2l}{d\sigma^2} = \frac{r}{\sigma^2} - \frac{2}{\sigma^3}T_{n,r} < 0\)(代入\(\sigma=T_{n,r}/r\)),验证为最大值点。
最终结果
平均寿命\(\sigma\)的MLE为:
其中\(T_{n,r}\)为总试验时间,包含失效器件的寿命和未失效器件的试验时长。
(b) 定时截尾数据
试验设计:对\(n\)个器件进行寿命试验,预先设定截尾时间\(x_0\),试验到\(x_0\)时刻停止,观测到\(r\)个器件在\(x_0\)前失效,寿命为\(X_1,X_2,\dots,X_r\),剩余\(n-r\)个器件在\(x_0\)时刻仍未失效。
步骤1:推导定时截尾样本的联合密度
定时截尾的样本联合密度为:
其中\(1-F(x_0)=e^{-x_0/\sigma}\)为器件在\(x_0\)时刻未失效的概率。
代入指数分布的密度,得:
步骤2:构造对数似然函数
忽略与\(\sigma\)无关的常数项,对数似然函数为:
步骤3:求导求解似然方程
对\(\sigma\)求一阶导数并令其为0:
解得:
最终结果
平均寿命\(\sigma\)的MLE为:
其中\(T'_{n,r}\)为定时截尾的总试验时间。
二、例3.3.6 多项分布的MLE详细推导
分布定义
多项分布\(N=(N_1,N_2,\dots,N_k)^T \sim MN(n,\pi)\),表示\(n\)次独立重复试验,每次试验有\(k\)个互斥的结果,第\(i\)个结果出现的概率为\(\pi_i\),\(N_i\)为\(n\)次试验中第\(i\)个结果出现的次数,满足\(\sum_{i=1}^k N_i = n\),\(\sum_{i=1}^k \pi_i = 1\),\(\pi_i>0\)。
分布律为:
求解思路
待估参数\(\pi=(\pi_1,\dots,\pi_k)\)满足约束条件\(\sum_{i=1}^k \pi_i=1\),属于带约束的极值优化问题,采用拉格朗日乘子法求解。
步骤1:构造对数似然函数
忽略与\(\pi\)无关的常数项,对数似然函数为:
步骤2:构造拉格朗日函数
引入拉格朗日乘子\(\lambda\),构造带约束的目标函数:
步骤3:求偏导构造方程组
分别对\(\pi_i\)和\(\lambda\)求偏导,令偏导数为0:
- 对\(\lambda\)求偏导:\(\frac{\partial L_A}{\partial \lambda} = -\sum_{i=1}^k \pi_i + 1 = 0\),即约束条件\(\sum_{i=1}^k \pi_i=1\);
- 对\(\pi_i\)求偏导:\(\frac{\partial L_A}{\partial \pi_i} = \frac{n_i}{\pi_i} - \lambda = 0\),解得\(\pi_i = \frac{n_i}{\lambda}\)。
步骤4:代入约束条件求解
将\(\pi_i = \frac{n_i}{\lambda}\)代入\(\sum_{i=1}^k \pi_i=1\),得:
因此\(\pi_i = \frac{n_i}{n}\),二阶偏导验证海塞矩阵负定,为最大值点。
最终结果
\(\pi_i\)的最大似然估计为:
直观意义:每个类别出现的概率的MLE,等于该类别在试验中出现的频率,符合“频率估计概率”的直觉。
三、例3.3.7 拉普拉斯分布的MLE详细推导
分布定义
拉普拉斯分布(双指数分布)\(X_1 \sim LA(\mu,\sigma)\),概率密度为:
其中\(\mu\)为位置参数(中位数),\(\sigma\)为尺度参数,期望\(E(X)=\mu\),方差\(\text{Var}(X)=2\sigma^2\)。
求解思路
似然函数中包含绝对值项,关于\(\mu\)不可导,无法直接用似然方程,需先分析\(\mu\)的最优解,再求解\(\sigma\)的MLE。
步骤1:构造似然函数与对数似然函数
样本联合密度:
对数似然函数:
步骤2:求解位置参数\(\mu\)的MLE
对任意固定的\(\sigma>0\),最大化\(l(\mu,\sigma)\)等价于最小化绝对偏差和:
将样本按从小到大排序为次序统计量\(x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}\),则\(\varphi(\mu) = \sum_{i=1}^n |x_{(i)} - \mu|\),分区间分析\(\varphi(\mu)\)的单调性:
- 当\(\mu < x_{(1)}\)时,\(\varphi(\mu) = \sum_{i=1}^n (x_{(i)} - \mu) = \sum x_{(i)} - n\mu\),斜率为\(-n < 0\),\(\varphi(\mu)\)严格递减;
- 当\(\mu > x_{(n)}\)时,\(\varphi(\mu) = \sum_{i=1}^n (\mu - x_{(i)}) = n\mu - \sum x_{(i)}\),斜率为\(n > 0\),\(\varphi(\mu)\)严格递增;
- 当\(\mu \in [x_{(k)},x_{(k+1)}], k=1,\dots,n-1\)时,\[\varphi(\mu) = \sum_{i=1}^k (\mu - x_{(i)}) + \sum_{i=k+1}^n (x_{(i)} - \mu) = (2k-n)\mu - \sum_{i=1}^k x_{(i)} + \sum_{i=k+1}^n x_{(i)} \]斜率为\(2k-n\):
- 当\(k < n/2\)时,斜率\(<0\),\(\varphi(\mu)\)递减;
- 当\(k > n/2\)时,斜率\(>0\),\(\varphi(\mu)\)递增。
因此\(\varphi(\mu)\)在样本中位数处取得最小值,分两种情况:
- n为奇数:\(n=2l+1\),当\(\mu = x_{(l+1)}\)时,\(\varphi(\mu)\)取得最小值,因此\(\hat{\mu}=X_{(l+1)}\);
- n为偶数:\(n=2l\),当\(\mu \in [x_{(l)},x_{(l+1)}]\)时,\(\varphi(\mu)\)取得最小值,通常取区间中点作为MLE,即\(\hat{\mu}=\frac{X_{(l)}+X_{(l+1)}}{2}\)。
综上,\(\mu\)的MLE为样本中位数\(M_e\):
步骤3:求解尺度参数\(\sigma\)的MLE
将\(\hat{\mu}=M_e\)代入对数似然函数,得到仅关于\(\sigma\)的函数:
对\(\sigma\)求一阶导数并令其为0:
解得:\(\sigma = \frac{1}{n}\sum_{i=1}^n |x_i - M_e|\),二阶导数验证为最大值点。
最终结果
四、全部分布MLE汇总表
| 总体分布 | 待估参数 | MLE表达式 | 核心求解特点 |
|---|---|---|---|
| 单参数指数分布\(\text{Exp}(\lambda)\) | 率参数\(\lambda\) | \(\hat{\lambda} = \frac{1}{\bar{X}} = \frac{n}{\sum X_i}\) | 可微函数,似然方程直接求解,与矩估计一致 |
| 平移指数分布\(\mu+\text{Exp}(1)\) | 位置参数\(\mu\) | \(\hat{\mu} = X_{(1)}\)(样本最小值) | 支撑与参数相关,似然函数单调,边界取极值 |
| 双参数指数分布\(\mu+\text{Exp}(\lambda)\) | 位置参数\(\mu\)、率参数\(\lambda\) | \(\hat{\mu}=X_{(1)},\ \hat{\lambda}=\frac{n}{\sum (X_i - X_{(1)})}\) | 分步求解,先固定参数求位置参数极值,再求率参数 |
| 指数分布\(\text{Exp}(1/\sigma)\)(定数截尾) | 平均寿命\(\sigma\) | \(\hat{\sigma}=\frac{1}{r}\left( \sum_{i=1}^r X_{(i)} + (n-r)X_{(r)} \right)\) | 基于次序统计量联合密度,考虑未失效样本的试验时间 |
| 指数分布\(\text{Exp}(1/\sigma)\)(定时截尾) | 平均寿命\(\sigma\) | \(\hat{\sigma}=\frac{1}{r}\left( \sum_{i=1}^r X_i + (n-r)x_0 \right)\) | 基于定时截尾的似然函数,用截尾时间\(x_0\)替代未失效样本的寿命 |
| 多项分布\(MN(n,\pi)\) | 类别概率\(\pi_i\) | \(\hat{\pi}_i = \frac{N_i}{n}\) | 带约束优化,拉格朗日乘子法求解,结果为频率估计 |
| 拉普拉斯分布\(LA(\mu,\sigma)\) | 位置参数\(\mu\) | \(\hat{\mu} = M_e\)(样本中位数) | 含绝对值项不可导,最小化绝对偏差和,中位数为最优解 |
| 拉普拉斯分布\(LA(\mu,\sigma)\) | 尺度参数\(\sigma\) | \(\hat{\sigma} = \frac{1}{n}\sum |X_i - M_e|\) | 代入中位数后,似然方程直接求解 |
五、MLE核心求解场景总结
通过以上所有例子,我们可以将MLE的求解场景归纳为4类,对应不同的处理方法:
- 无约束可微场景(如指数分布、正态分布、泊松分布):直接构造对数似然→求导→解似然方程→二阶导数验证;
- 支撑与参数相关的不可微场景(如均匀分布、平移指数分布):分析似然函数单调性,在参数边界取极值;
- 带约束优化场景(如多项分布):拉格朗日乘子法引入约束,转化为无约束问题求解;
- 非完全数据场景(如截尾数据):基于非完全样本的联合密度构造似然函数,纳入未观测样本的信息后求解。
posted on 2026-02-24 09:02 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号