昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

3.3.1最大似然估计(MLE)

最大似然估计(MLE)全知识点详解与推导

作为统计学中最核心、应用最广泛的参数估计方法,最大似然估计的核心思想是“概率最大的事件最可能发生”:当我们已经获得一组样本观测值时,使得这组观测值出现的概率(概率密度)最大的参数值,就是对真实参数的最优估计。


一、核心定义与基础性质证明

1. 基本设定

设总体 \(X\) 的概率密度(连续型)/分布律(离散型)为 \(f(x;\theta)\),其中 \(\theta \in \Theta\) 是待估未知参数,\(\Theta\) 为参数空间;\(X_1,X_2,\dots,X_n\) 是来自 \(X\) 的独立同分布(i.i.d.)样本,\(x_1,x_2,\dots,x_n\) 是对应的样本观测值。

2. 似然函数与对数似然函数

  • 似然函数:将样本联合分布视为参数 \(\theta\) 的函数,称为似然函数

    \[L(\theta;x) = L(\theta) = \prod_{i=1}^n f(x_i;\theta), \quad \theta \in \Theta \]

    本质:固定样本观测值 \(x\),描述不同参数 \(\theta\) 下,观测到当前样本的“可能性大小”。

  • 对数似然函数:对似然函数取自然对数,记为

    \[l(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i;\theta) \]

核心性质证明:对数似然与原似然同解

命题:若分布族 \(\{f(x;\theta),\theta\in\Theta\}\) 有共同支撑(即 \(f(x;\theta)>0\)\(x\) 范围与 \(\theta\) 无关),则 \(L(\theta)\)\(l(\theta)\) 的最大值点完全相同。
证明:对数函数 \(y=\ln t\)\(t>0\) 上是严格单调递增函数,因此对任意 \(\theta_1,\theta_2\in\Theta\),有

\[L(\theta_1) > L(\theta_2) \iff \ln L(\theta_1) > \ln L(\theta_2) \]

因此使 \(L(\theta)\) 取最大值的 \(\hat{\theta}\),与使 \(l(\theta)\) 取最大值的 \(\hat{\theta}\) 完全一致。
意义:将乘积形式的似然函数转化为求和形式,大幅简化求导计算,是MLE求解的核心技巧。

3. 最大似然估计的严格定义

若存在统计量 \(\hat{\theta} = \hat{\theta}(X_1,X_2,\dots,X_n)\),使得对任意 \(\theta\in\Theta\),都有

\[L(\hat{\theta};x) = \max_{\theta\in\Theta} L(\theta;x) \]

则称 \(\hat{\theta}\)\(\theta\)最大似然估计(MLE),对应的观测值 \(\hat{\theta}(x_1,\dots,x_n)\) 为最大似然估计值。

4. 关键注记的证明与解释

  1. 似然函数可忽略与θ无关的正常数
    \(c(x)>0\) 且与 \(\theta\) 无关,则 \(c(x)L(\theta)\)\(L(\theta)\) 最大值点相同。
    证明\(c(x)>0\) 时,\(\max_{\theta} c(x)L(\theta) = c(x)\max_{\theta} L(\theta)\),两者最大值点完全一致。

  2. 似然方程(可微情形的必要条件)
    \(l(\theta)\) 关于 \(\theta\) 可微,则最大值点一定满足一阶导数为0,即似然方程

    \[\frac{dl(\theta)}{d\theta} = 0 \quad (\text{单参数}) \quad ; \quad \frac{\partial l(\theta)}{\partial \theta_i} = 0 \quad (\text{多参数}) \]

    注意:似然方程的解仅为驻点,不一定是最大值点,需验证二阶导数<0,或结合单调性/边界情况判断;若似然函数不可微(如均匀分布),则不能用似然方程,需直接分析单调性。

  3. MLE必为充分统计量的函数
    证明:根据因子分解定理,若 \(T(X)\)\(\theta\) 的充分统计量,则样本联合密度可分解为

    \[f(x;\theta) = g(T(x);\theta) \cdot h(x) \]

    其中 \(h(x)\)\(\theta\) 无关,\(g\) 仅通过 \(T(x)\) 依赖样本。
    似然函数 \(L(\theta) = g(T(x);\theta) \cdot h(x)\),由注记1,\(L(\theta)\) 的最大值点等价于 \(g(T(x);\theta)\) 的最大值点,因此 \(\hat{\theta}\) 必为 \(T(x)\) 的函数,即 \(\hat{\theta}=\hat{\theta}(T(x))\)
    意义:MLE充分利用了样本中关于参数的全部信息,符合统计推断的充分性原则。


二、MLE的通用求解步骤

情形1:似然函数关于参数可微(指数族分布,如二项、泊松、正态)

  1. 写出样本联合分布,构造似然函数 \(L(\theta)\)
  2. 取对数得到对数似然函数 \(l(\theta)\),忽略与 \(\theta\) 无关的常数项;
  3. \(\theta\) 求导(多参数求偏导),令导数为0,得到似然方程/方程组;
  4. 求解似然方程,得到驻点;
  5. 验证驻点为最大值点(二阶导数<0,或结合分布性质判断全局最优);
  6. 用样本统计量表示MLE的最终形式。

情形2:似然函数不可微/似然方程无解(支撑与θ有关,如均匀分布)

  1. 写出似然函数,通过示性函数明确样本与参数的约束条件;
  2. 分析似然函数在参数空间上的单调性;
  3. 结合约束条件,找到使似然函数最大的参数值,即为MLE。

三、经典分布的MLE详细推导

例1:二项分布与伯努利分布的MLE

(1) 单样本二项分布 \(X \sim b(n,p)\),求 \(p\) 的MLE

二项分布的分布律:

\[f(x;p) = \binom{n}{x} p^x (1-p)^{n-x}, \quad x=0,1,\dots,n, \ 0<p<1 \]

  1. 似然函数:\(L(p) = \binom{n}{x} p^x (1-p)^{n-x}\)
  2. 对数似然:\(l(p) = \ln\binom{n}{x} + x\ln p + (n-x)\ln(1-p)\)(忽略常数项 \(\ln\binom{n}{x}\)
  3. 求导:\(\frac{dl}{dp} = \frac{x}{p} - \frac{n-x}{1-p}\)
  4. 似然方程:\(\frac{x}{p} - \frac{n-x}{1-p} = 0\),解得 \(p = \frac{x}{n}\)
  5. 最大值验证:二阶导数 \(\frac{d^2l}{dp^2} = -\frac{x}{p^2} - \frac{n-x}{(1-p)^2} < 0\),驻点为全局最大值点
  6. 最终结果:\(p\) 的MLE为 \(\hat{p} = \frac{X}{n}\)

(2) 伯努利分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim b(1,p)\),求 \(p\) 的MLE

伯努利分布的分布律:\(f(x_i;p) = p^{x_i}(1-p)^{1-x_i}, \ x_i\in\{0,1\}\)

  1. 似然函数:\(L(p) = \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i} (1-p)^{n-\sum x_i}\),令 \(t=\sum_{i=1}^n x_i\)
  2. 对数似然:\(l(p) = t\ln p + (n-t)\ln(1-p)\)
  3. 求导并令导数为0,解得 \(p = \frac{t}{n} = \bar{x}\)
  4. 二阶导数<0,验证为最大值点
  5. 最终结果:\(\hat{p} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}\)(样本均值)

(3) 标记重捕法(鱼塘估计)

鱼塘总鱼数 \(N\),先捕 \(m\) 条标记放回,再捕 \(n\) 条,其中 \(x\) 条带标记。带标记鱼的比例 \(p=\frac{m}{N}\),第二次捕鱼 \(X\sim b(n,p)\)

由(1)得 \(p\) 的MLE为 \(\hat{p}=\frac{x}{n}\),代入 \(p=\frac{m}{N}\),解得 \(N\) 的MLE:

\[\hat{N} = \frac{mn}{x} \]

代入 \(m=500,n=1000,x=100\),得 \(\hat{N}=5000\)


例2:泊松分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim P(\lambda)\),求 \(\lambda\) 的MLE

泊松分布的分布律:

\[f(x_i;\lambda) = \frac{e^{-\lambda}\lambda^{x_i}}{x_i!}, \quad x_i=0,1,2,\dots, \ \lambda>0 \]

  1. 似然函数:\(L(\lambda) = \prod_{i=1}^n \frac{e^{-\lambda}\lambda^{x_i}}{x_i!} = e^{-n\lambda} \lambda^{\sum x_i} \cdot \frac{1}{\prod x_i!}\)
  2. 对数似然:\(l(\lambda) = -n\lambda + (\sum x_i)\ln\lambda - \ln(\prod x_i!)\)(忽略常数项)
  3. 求导:\(\frac{dl}{d\lambda} = -n + \frac{\sum x_i}{\lambda}\)
  4. 似然方程:\(-n + \frac{\sum x_i}{\lambda}=0\),解得 \(\lambda = \frac{1}{n}\sum x_i = \bar{x}\)
  5. 最大值验证:二阶导数 \(\frac{d^2l}{d\lambda^2} = -\frac{\sum x_i}{\lambda^2} < 0\),驻点为全局最大值点
  6. 最终结果:\(\hat{\lambda} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}\)(样本均值)

应用:白细胞数据

样本量 \(n=1008\),计算得 \(\sum k\cdot n_k=2846\),因此 \(\hat{\lambda}=\bar{x}=\frac{2846}{1008}\approx2.82\),即平均每个细胞单位的白细胞数为2.82。


例3:正态分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim N(\mu,\sigma^2)\),求 \(\mu,\sigma^2\) 的MLE

正态分布的概率密度:

\[f(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma^2} \right\} \]

  1. 似然函数:

    \[L(\mu,\sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 \right\} \]

  2. 对数似然:

    \[l(\mu,\sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 \]

  3. 求偏导并构造似然方程组:
    • \(\mu\) 求偏导:\(\frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n (x_i-\mu) = 0\),解得 \(\mu = \frac{1}{n}\sum x_i = \bar{x}\)
    • \(\sigma^2\) 求偏导:\(\frac{\partial l}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (x_i-\mu)^2 = 0\),解得 \(\sigma^2 = \frac{1}{n}\sum (x_i-\mu)^2\)
  4. 代入求解:将 \(\mu=\bar{x}\) 代入,得 \(\sigma^2 = \frac{1}{n}\sum (x_i-\bar{x})^2\)
  5. 最大值验证:
    • 对任意固定 \(\sigma^2\)\(\sum (x_i-\mu)^2\)\(\mu=\bar{x}\) 时取最小值,因此 \(l(\mu,\sigma^2)\)\(\mu=\bar{x}\) 时取最大值;
    • 代入 \(\mu=\bar{x}\) 后,二阶导数 \(\frac{d^2l}{d(\sigma^2)^2} = -\frac{n}{2\hat{\sigma}^4} < 0\),因此 \(\hat{\sigma}^2\) 为最大值点。
  6. 最终结果:

    \[\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i, \quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2 \]

拓展:一元线性回归模型的MLE

模型:\(X_i = a + bu_i + e_i\)\(e_i \text{ i.i.d.} \sim N(0,\sigma^2)\),待估参数 \(a,b,\sigma^2\)

  1. 似然函数:\(L(a,b,\sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i -a -bu_i)^2 \right\}\)
  2. 最大化似然等价于最小化残差平方和 \(R(a,b)=\sum (x_i -a -bu_i)^2\)
  3. 求导解得:

    \[\hat{b} = \frac{Q_{xu}}{Q_{uu}}, \quad \hat{a} = \bar{X} - \hat{b}\bar{u} \]

    其中 \(Q_{xu}=\sum (x_i-\bar{x})(u_i-\bar{u})\)\(Q_{uu}=\sum (u_i-\bar{u})^2\)
  4. \(\sigma^2\) 的MLE:\(\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \hat{a} - \hat{b}u_i)^2\)

结论:正态误差假设下,线性回归系数的MLE与最小二乘估计(LSE)完全等价。


例4:均匀分布的MLE(不可微情形)

均匀分布 \(R(a,b)\) 的概率密度:\(f(x;a,b)=\frac{1}{b-a}, \ a\leq x\leq b\),样本联合密度为:

\[f(x;a,b) = \frac{1}{(b-a)^n} \cdot I\{a\leq x_{(1)}\} \cdot I\{x_{(n)}\leq b\} \]

其中 \(x_{(1)}=\min(x_1,\dots,x_n)\)(样本最小值),\(x_{(n)}=\max(x_1,\dots,x_n)\)(样本最大值),\(I\{\cdot\}\) 为示性函数。

(1) \(X_1 \sim R(0,\theta), \theta>0\),求 \(\theta\) 的MLE

似然函数:\(L(\theta) = \frac{1}{\theta^n} \cdot I\{\theta \geq x_{(n)}\}\)

  • \(\theta \geq x_{(n)}\) 时,\(L(\theta)=\theta^{-n}\),关于 \(\theta\) 严格单调递减,因此 \(\theta\) 越小,\(L(\theta)\) 越大;
  • \(\theta\) 的最小取值为 \(x_{(n)}\),此时 \(L(\theta)\) 取最大值。

最终结果:\(\hat{\theta} = X_{(n)}\)(样本最大值)。

(2) \(X_1 \sim R(\theta,3\theta), \theta>0\),求 \(\theta\) 的MLE

似然函数:\(L(\theta) = \frac{1}{(2\theta)^n} \cdot I\left\{ \frac{x_{(n)}}{3} \leq \theta \leq x_{(1)} \right\}\)

  • 区间内 \(L(\theta)\) 关于 \(\theta\) 严格单调递减,\(\theta\) 最小值为 \(\frac{x_{(n)}}{3}\),此时 \(L(\theta)\) 最大。

最终结果:\(\hat{\theta} = \frac{X_{(n)}}{3}\)

(3) \(X_1 \sim R(\theta,\theta+1), \theta\in\mathbb{R}\),求 \(\theta\) 的MLE

似然函数:\(L(\theta) = I\{ x_{(n)}-1 \leq \theta \leq x_{(1)} \}\)

  • 区间内 \(L(\theta)=1\)(最大值),区间外 \(L(\theta)=0\),因此MLE不唯一,所有满足 \(X_{(n)}-1 \leq \hat{\theta} \leq X_{(1)}\) 的统计量都是 \(\theta\) 的MLE。

(4) \(X_1 \sim R(\mu-\sigma/2, \mu+\sigma/2), \sigma>0\),求 \(\mu,\sigma\) 的MLE

似然函数:\(L(\mu,\sigma) = \frac{1}{\sigma^n} \cdot I\left\{ \mu-\frac{\sigma}{2} \leq x_{(1)}, \ x_{(n)} \leq \mu+\frac{\sigma}{2} \right\}\)

  • 最大化 \(L(\mu,\sigma)\) 等价于最小化 \(\sigma\),约束条件要求 \(\sigma \geq x_{(n)}-x_{(1)}\),因此 \(\sigma\) 的最小值为样本极差 \(x_{(n)}-x_{(1)}\)
  • 代入 \(\sigma=x_{(n)}-x_{(1)}\),解得 \(\mu = \frac{x_{(1)}+x_{(n)}}{2}\)

最终结果:

\[\hat{\mu} = \frac{X_{(1)}+X_{(n)}}{2}, \quad \hat{\sigma} = X_{(n)}-X_{(1)} \]


四、MLE的核心性质总结

性质 内容 补充说明
不变性 \(\hat{\theta}\)\(\theta\) 的MLE,\(g(\theta)\)\(\theta\) 的单值可测函数,则 \(g(\hat{\theta})\)\(g(\theta)\) 的MLE 例:正态分布中 \(\sigma\) 的MLE为 \(\sqrt{\hat{\sigma}^2}\),无需重新推导
充分性 MLE一定是充分统计量的函数 保证MLE充分利用样本中的参数信息,无信息损失
渐近正态性 正则条件下,\(\sqrt{n}(\hat{\theta}-\theta) \xrightarrow{d} N(0, 1/I(\theta))\)\(I(\theta)\) 为Fisher信息 大样本下,MLE渐近无偏、渐近有效,达到C-R方差下界
强相合性 正则条件下,\(\hat{\theta} \xrightarrow{a.s.} \theta \ (n\to\infty)\) 样本量足够大时,MLE几乎必然收敛到真实参数
无偏性 MLE不一定是无偏估计 例:正态分布的 \(\hat{\sigma}^2\)、均匀分布的 \(\hat{\theta}=X_{(n)}\) 均为有偏估计,需修正后可得到无偏估计

五、常见分布MLE汇总表

总体分布 待估参数 MLE表达式 核心说明
二项分布 \(b(n,p)\) 成功概率 \(p\) \(\hat{p} = \frac{X}{n}\) 单样本情形,驻点为全局最大值点
伯努利分布 \(b(1,p)\) 成功概率 \(p\) \(\hat{p} = \bar{X} = \frac{1}{n}\sum X_i\) n个样本情形,与二项分布结果等价
泊松分布 \(P(\lambda)\) 强度参数 \(\lambda\) \(\hat{\lambda} = \bar{X} = \frac{1}{n}\sum X_i\) 与总体期望一致,矩估计与MLE结果相同
正态分布 \(N(\mu,\sigma^2)\) 均值 \(\mu\) \(\hat{\mu} = \bar{X}\) 无偏估计,矩估计与MLE结果相同
正态分布 \(N(\mu,\sigma^2)\) 方差 \(\sigma^2\) \(\hat{\sigma}^2 = \frac{1}{n}\sum (X_i-\bar{X})^2\) 有偏估计,无偏修正为 \(S^2=\frac{1}{n-1}\sum (X_i-\bar{X})^2\)
均匀分布 \(R(0,\theta)\) 区间上限 \(\theta\) \(\hat{\theta} = X_{(n)}\)(样本最大值) 似然函数不可微,在边界取最大值,与矩估计结果不同
均匀分布 \(R(a,b)\) 区间端点 \(a,b\) \(\hat{a}=X_{(1)},\ \hat{b}=X_{(n)}\) 样本最小值与最大值,支撑与参数相关,无法用似然方程求解
均匀分布 \(R(\mu-\sigma/2,\mu+\sigma/2)\) 位置参数 \(\mu\)、尺度参数 \(\sigma\) \(\hat{\mu}=\frac{X_{(1)}+X_{(n)}}{2},\ \hat{\sigma}=X_{(n)}-X_{(1)}\) 由样本极值与极差构造,体现MLE对边界信息的利用

补充分布MLE全知识点详解与推导

承接之前的最大似然估计核心框架,我们继续对指数分布(含位置参数、截尾数据)、多项分布、拉普拉斯分布的MLE进行完整推导与讲解,覆盖可微求解、约束优化、非可微极值求解、截尾数据等核心场景。


一、例3.3.5 指数分布(伽马分布特例)的MLE详细推导

首先明确伽马分布的参数化:本教材中,\(\Gamma(\alpha,\beta)\) 表示形状参数为\(\alpha\)、尺度参数为\(\beta\)的伽马分布,概率密度为:

\[f(x;\alpha,\beta) = \frac{1}{\Gamma(\alpha)\beta^\alpha} x^{\alpha-1} e^{-x/\beta}, \quad x>0 \]

\(\alpha=1\)时,伽马分布退化为指数分布\(\text{Exp}(1/\beta)\),即\(f(x)=\frac{1}{\beta}e^{-x/\beta}, x>0\),期望为\(\beta\)

(1) 单参数指数分布 \(X_1 \sim \Gamma(\lambda,1)\)(即\(\text{Exp}(\lambda)\)),求\(\lambda\)的MLE

\(X_1,X_2,\dots,X_n\)独立同分布,\(X_i \sim \Gamma(\lambda,1)\),结合教材推导,此处为\(\alpha=1\)的指数分布,单个样本的概率密度为:

\[f(x_i;\lambda) = \lambda e^{-\lambda x_i}, \quad x_i>0, \lambda>0 \]

步骤1:构造似然函数

样本联合密度(似然函数)为各样本密度的乘积:

\[L(\lambda;x) = \prod_{i=1}^n \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^n x_i} \cdot I\{x_{(1)} \geq 0\} \]

其中\(x_{(1)}=\min(x_1,\dots,x_n)\)为样本最小值,示性函数\(I\{\cdot\}\)保证样本非负,与\(\lambda\)无关,后续可忽略。

步骤2:构造对数似然函数

对似然函数取自然对数,忽略与\(\lambda\)无关的项:

\[l(\lambda) = n\ln\lambda - \lambda \sum_{i=1}^n x_i \]

步骤3:求导构造似然方程

\(\lambda\)求一阶导数,令导数为0:

\[\frac{dl}{d\lambda} = \frac{n}{\lambda} - \sum_{i=1}^n x_i = 0 \]

步骤4:求解与最大值验证

解方程得:\(\lambda = \frac{n}{\sum_{i=1}^n x_i} = \frac{1}{\bar{x}}\),其中\(\bar{x}=\frac{1}{n}\sum x_i\)为样本均值。
二阶导数验证:\(\frac{d^2l}{d\lambda^2} = -\frac{n}{\lambda^2} < 0\),因此驻点为全局最大值点。

最终结果

\(\lambda\)的最大似然估计为:

\[\hat{\lambda} = \frac{1}{\bar{X}} = \frac{n}{\sum_{i=1}^n X_i} \]

补充注记:若\(X_1 \sim \Gamma(1/\sigma,1)\)(即指数分布\(\text{Exp}(1/\sigma)\),期望为\(\sigma\)),代入上式可得平均寿命\(\sigma\)的MLE为\(\hat{\sigma} = \bar{X}\),与矩估计结果一致。


(2) 带位置参数的指数分布 \(X_1 \sim \mu + \Gamma(1,1)\),求\(\mu\)的MLE

该分布为平移指数分布,单个样本的概率密度为:

\[f(x_i;\mu) = e^{-(x_i - \mu)}, \quad x_i \geq \mu, \mu \in \mathbb{R} \]

\(X_i - \mu \sim \text{Exp}(1)\),支撑为\(x_i \geq \mu\),与待估参数\(\mu\)相关,无法用似然方程求导求解,需直接分析似然函数的单调性。

步骤1:构造似然函数

样本联合密度:

\[L(\mu;x) = \prod_{i=1}^n e^{-(x_i - \mu)} \cdot I\{x_{(1)} \geq \mu\} = e^{n\mu - \sum_{i=1}^n x_i} \cdot I\{x_{(1)} \geq \mu\} \]

步骤2:分析单调性与最大值

  • \(\mu \leq x_{(1)}\)时,示性函数为1,似然函数\(L(\mu) = e^{n\mu - \sum x_i}\),关于\(\mu\)严格单调递增,因此\(\mu\)越大,\(L(\mu)\)越大;
  • \(\mu\)的最大取值为\(x_{(1)}\)(若\(\mu > x_{(1)}\),示性函数为0,似然函数为0,无意义)。

因此当\(\mu = x_{(1)}\)时,似然函数取得最大值。

最终结果

\(\mu\)的最大似然估计为:

\[\hat{\mu} = X_{(1)} = \min(X_1,X_2,\dots,X_n) \]


(3) 双参数平移指数分布 \(X_1 \sim \mu + \Gamma(\lambda,1)\),求\(\lambda,\mu\)的MLE

该分布为带位置参数\(\mu\)、率参数\(\lambda\)的双参数指数分布,单个样本密度为:

\[f(x_i;\lambda,\mu) = \lambda e^{-\lambda(x_i - \mu)}, \quad x_i \geq \mu, \lambda>0, \mu\in\mathbb{R} \]

步骤1:构造似然函数

样本联合密度:

\[L(\lambda,\mu;x) = \prod_{i=1}^n \lambda e^{-\lambda(x_i - \mu)} \cdot I\{x_{(1)} \geq \mu\} = \lambda^n e^{-\lambda \sum_{i=1}^n (x_i - \mu)} \cdot I\{x_{(1)} \geq \mu\} \]

整理得:

\[L(\lambda,\mu;x) = \lambda^n e^{n\lambda \mu} e^{-\lambda \sum x_i} \cdot I\{x_{(1)} \geq \mu\} \]

步骤2:分步求解MLE(先固定\(\lambda\),求\(\mu\)的最优解)

对任意固定的\(\lambda>0\),似然函数中与\(\mu\)相关的项为\(e^{n\lambda \mu} \cdot I\{x_{(1)} \geq \mu\}\)

  • \(\mu \leq x_{(1)}\)时,\(e^{n\lambda \mu}\)关于\(\mu\)严格单调递增,因此\(\mu\)的最优取值为\(x_{(1)}\),即\(\hat{\mu}=X_{(1)}\)

步骤3:代入\(\hat{\mu}\),求\(\lambda\)的MLE

\(\mu = x_{(1)}\)代入似然函数,得到仅关于\(\lambda\)的对数似然函数:

\[l(\lambda) = n\ln\lambda - \lambda \sum_{i=1}^n (x_i - x_{(1)}) \]

\(\lambda\)求导并令导数为0:

\[\frac{dl}{d\lambda} = \frac{n}{\lambda} - \sum_{i=1}^n (x_i - x_{(1)}) = 0 \]

解得:\(\lambda = \frac{n}{\sum_{i=1}^n (x_i - x_{(1)})}\),二阶导数\(\frac{d^2l}{d\lambda^2}=-\frac{n}{\lambda^2}<0\),验证为最大值点。

步骤4:全局最优性验证

对任意\((\lambda,\mu)\),有:

\[L(\hat{\lambda},\hat{\mu};x) \geq L(\lambda,\hat{\mu};x) \geq L(\lambda,\mu;x) \]

因此\(\hat{\lambda},\hat{\mu}\)为全局最优的MLE。

最终结果

\[\hat{\mu} = X_{(1)}, \quad \hat{\lambda} = \frac{n}{\sum_{i=1}^n (X_i - X_{(1)})} \]


(4) 截尾数据下指数分布的MLE(可靠性/生存分析核心场景)

设器件寿命\(X_1 \sim \Gamma(\sigma^{-1},1)\),即\(X_i \sim \text{Exp}(1/\sigma)\),概率密度\(f(x)=\frac{1}{\sigma}e^{-x/\sigma}, x>0\),期望\(E(X)=\sigma\)为平均寿命。截尾数据分为定数截尾定时截尾两类,分别推导如下:

(a) 定数截尾数据

试验设计:对\(n\)个器件进行寿命试验,直到观测到前\(r\)个失效的寿命数据\(X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(r)}\),剩余\(n-r\)个器件在\(X_{(r)}\)时刻仍未失效,停止试验。

步骤1:推导截尾样本的联合密度

次序统计量的联合密度公式:前\(r\)个次序统计量的联合密度为

\[f(y_1,\dots,y_r) = \frac{n!}{(n-r)!} \prod_{i=1}^r f(y_i) \cdot [1-F(y_r)]^{n-r}, \quad 0\leq y_1<y_2<\dots<y_r \]

其中\(F(x)=1-e^{-x/\sigma}\)为指数分布的分布函数,\(1-F(y_r)=e^{-y_r/\sigma}\)

代入指数分布的密度与生存函数,得:

\[f(y_1,\dots,y_r;\sigma) = \frac{n!}{(n-r)!} \cdot \frac{1}{\sigma^r} \exp\left\{ -\frac{1}{\sigma}\left( \sum_{i=1}^r y_i + (n-r)y_r \right) \right\} \cdot I\{0\leq y_1<\dots<y_r\} \]

步骤2:构造对数似然函数

忽略与\(\sigma\)无关的常数项,对数似然函数为:

\[l(\sigma) = -r\ln\sigma - \frac{1}{\sigma}\left( \sum_{i=1}^r y_i + (n-r)y_r \right) \]

步骤3:求导求解似然方程

\(\sigma\)求一阶导数并令其为0:

\[\frac{dl}{d\sigma} = -\frac{r}{\sigma} + \frac{1}{\sigma^2}\left( \sum_{i=1}^r y_i + (n-r)y_r \right) = 0 \]

解方程得:

\[\sigma = \frac{1}{r}\left( \sum_{i=1}^r y_i + (n-r)y_r \right) \]

二阶导数验证:\(\frac{d^2l}{d\sigma^2} = \frac{r}{\sigma^2} - \frac{2}{\sigma^3}T_{n,r} < 0\)(代入\(\sigma=T_{n,r}/r\)),验证为最大值点。

最终结果

平均寿命\(\sigma\)的MLE为:

\[\hat{\sigma} = \frac{T_{n,r}}{r}, \quad T_{n,r} = \sum_{i=1}^r X_{(i)} + (n-r)X_{(r)} \]

其中\(T_{n,r}\)总试验时间,包含失效器件的寿命和未失效器件的试验时长。


(b) 定时截尾数据

试验设计:对\(n\)个器件进行寿命试验,预先设定截尾时间\(x_0\),试验到\(x_0\)时刻停止,观测到\(r\)个器件在\(x_0\)前失效,寿命为\(X_1,X_2,\dots,X_r\),剩余\(n-r\)个器件在\(x_0\)时刻仍未失效。

步骤1:推导定时截尾样本的联合密度

定时截尾的样本联合密度为:

\[f(y_1,\dots,y_r;\sigma) = \frac{n!}{(n-r)!} \prod_{i=1}^r f(y_i) \cdot [1-F(x_0)]^{n-r}, \quad 0\leq y_i \leq x_0 \]

其中\(1-F(x_0)=e^{-x_0/\sigma}\)为器件在\(x_0\)时刻未失效的概率。

代入指数分布的密度,得:

\[f(y_1,\dots,y_r;\sigma) = \frac{n!}{(n-r)!} \cdot \frac{1}{\sigma^r} \exp\left\{ -\frac{1}{\sigma}\left( \sum_{i=1}^r y_i + (n-r)x_0 \right) \right\} \cdot I\{y_i \geq 0\} \]

步骤2:构造对数似然函数

忽略与\(\sigma\)无关的常数项,对数似然函数为:

\[l(\sigma) = -r\ln\sigma - \frac{1}{\sigma}\left( \sum_{i=1}^r y_i + (n-r)x_0 \right) \]

步骤3:求导求解似然方程

\(\sigma\)求一阶导数并令其为0:

\[\frac{dl}{d\sigma} = -\frac{r}{\sigma} + \frac{1}{\sigma^2}\left( \sum_{i=1}^r y_i + (n-r)x_0 \right) = 0 \]

解得:

\[\sigma = \frac{1}{r}\left( \sum_{i=1}^r y_i + (n-r)x_0 \right) \]

最终结果

平均寿命\(\sigma\)的MLE为:

\[\hat{\sigma} = \frac{T'_{n,r}}{r}, \quad T'_{n,r} = \sum_{i=1}^r X_i + (n-r)x_0 \]

其中\(T'_{n,r}\)为定时截尾的总试验时间。


二、例3.3.6 多项分布的MLE详细推导

分布定义

多项分布\(N=(N_1,N_2,\dots,N_k)^T \sim MN(n,\pi)\),表示\(n\)次独立重复试验,每次试验有\(k\)个互斥的结果,第\(i\)个结果出现的概率为\(\pi_i\)\(N_i\)\(n\)次试验中第\(i\)个结果出现的次数,满足\(\sum_{i=1}^k N_i = n\)\(\sum_{i=1}^k \pi_i = 1\)\(\pi_i>0\)

分布律为:

\[p(n_1,n_2,\dots,n_k;\pi) = \frac{n!}{n_1!n_2!\dots n_k!} \pi_1^{n_1} \pi_2^{n_2} \dots \pi_k^{n_k} \]

求解思路

待估参数\(\pi=(\pi_1,\dots,\pi_k)\)满足约束条件\(\sum_{i=1}^k \pi_i=1\),属于带约束的极值优化问题,采用拉格朗日乘子法求解。

步骤1:构造对数似然函数

忽略与\(\pi\)无关的常数项,对数似然函数为:

\[l(\pi) = \sum_{i=1}^k n_i \ln\pi_i \]

步骤2:构造拉格朗日函数

引入拉格朗日乘子\(\lambda\),构造带约束的目标函数:

\[L_A(\pi,\lambda) = \sum_{i=1}^k n_i \ln\pi_i - \lambda\left( \sum_{i=1}^k \pi_i - 1 \right) \]

步骤3:求偏导构造方程组

分别对\(\pi_i\)\(\lambda\)求偏导,令偏导数为0:

  1. \(\lambda\)求偏导:\(\frac{\partial L_A}{\partial \lambda} = -\sum_{i=1}^k \pi_i + 1 = 0\),即约束条件\(\sum_{i=1}^k \pi_i=1\)
  2. \(\pi_i\)求偏导:\(\frac{\partial L_A}{\partial \pi_i} = \frac{n_i}{\pi_i} - \lambda = 0\),解得\(\pi_i = \frac{n_i}{\lambda}\)

步骤4:代入约束条件求解

\(\pi_i = \frac{n_i}{\lambda}\)代入\(\sum_{i=1}^k \pi_i=1\),得:

\[\sum_{i=1}^k \frac{n_i}{\lambda} = 1 \implies \lambda = \sum_{i=1}^k n_i = n \]

因此\(\pi_i = \frac{n_i}{n}\),二阶偏导验证海塞矩阵负定,为最大值点。

最终结果

\(\pi_i\)的最大似然估计为:

\[\hat{\pi}_i = \frac{N_i}{n}, \quad i=1,2,\dots,k \]

直观意义:每个类别出现的概率的MLE,等于该类别在试验中出现的频率,符合“频率估计概率”的直觉。


三、例3.3.7 拉普拉斯分布的MLE详细推导

分布定义

拉普拉斯分布(双指数分布)\(X_1 \sim LA(\mu,\sigma)\),概率密度为:

\[f(x;\mu,\sigma) = \frac{1}{2\sigma} \exp\left\{ -\frac{|x-\mu|}{\sigma} \right\}, \quad x\in\mathbb{R}, \sigma>0 \]

其中\(\mu\)为位置参数(中位数),\(\sigma\)为尺度参数,期望\(E(X)=\mu\),方差\(\text{Var}(X)=2\sigma^2\)

求解思路

似然函数中包含绝对值项,关于\(\mu\)不可导,无法直接用似然方程,需先分析\(\mu\)的最优解,再求解\(\sigma\)的MLE。

步骤1:构造似然函数与对数似然函数

样本联合密度:

\[L(\mu,\sigma;x) = \prod_{i=1}^n \frac{1}{2\sigma} \exp\left\{ -\frac{|x_i-\mu|}{\sigma} \right\} = \left( \frac{1}{2\sigma} \right)^n \exp\left\{ -\frac{1}{\sigma}\sum_{i=1}^n |x_i-\mu| \right\} \]

对数似然函数:

\[l(\mu,\sigma) = -n\ln(2\sigma) - \frac{1}{\sigma}\sum_{i=1}^n |x_i-\mu| \]

步骤2:求解位置参数\(\mu\)的MLE

对任意固定的\(\sigma>0\),最大化\(l(\mu,\sigma)\)等价于最小化绝对偏差和

\[\varphi(\mu) = \sum_{i=1}^n |x_i - \mu| \]

将样本按从小到大排序为次序统计量\(x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}\),则\(\varphi(\mu) = \sum_{i=1}^n |x_{(i)} - \mu|\),分区间分析\(\varphi(\mu)\)的单调性:

  1. \(\mu < x_{(1)}\)时,\(\varphi(\mu) = \sum_{i=1}^n (x_{(i)} - \mu) = \sum x_{(i)} - n\mu\),斜率为\(-n < 0\)\(\varphi(\mu)\)严格递减;
  2. \(\mu > x_{(n)}\)时,\(\varphi(\mu) = \sum_{i=1}^n (\mu - x_{(i)}) = n\mu - \sum x_{(i)}\),斜率为\(n > 0\)\(\varphi(\mu)\)严格递增;
  3. \(\mu \in [x_{(k)},x_{(k+1)}], k=1,\dots,n-1\)时,

    \[\varphi(\mu) = \sum_{i=1}^k (\mu - x_{(i)}) + \sum_{i=k+1}^n (x_{(i)} - \mu) = (2k-n)\mu - \sum_{i=1}^k x_{(i)} + \sum_{i=k+1}^n x_{(i)} \]

    斜率为\(2k-n\)
    • \(k < n/2\)时,斜率\(<0\)\(\varphi(\mu)\)递减;
    • \(k > n/2\)时,斜率\(>0\)\(\varphi(\mu)\)递增。

因此\(\varphi(\mu)\)样本中位数处取得最小值,分两种情况:

  • n为奇数\(n=2l+1\),当\(\mu = x_{(l+1)}\)时,\(\varphi(\mu)\)取得最小值,因此\(\hat{\mu}=X_{(l+1)}\)
  • n为偶数\(n=2l\),当\(\mu \in [x_{(l)},x_{(l+1)}]\)时,\(\varphi(\mu)\)取得最小值,通常取区间中点作为MLE,即\(\hat{\mu}=\frac{X_{(l)}+X_{(l+1)}}{2}\)

综上,\(\mu\)的MLE为样本中位数\(M_e\)

\[\hat{\mu} = M_e = \begin{cases} X_{(l+1)}, & n=2l+1 \ (\text{奇数}) \\ \frac{X_{(l)}+X_{(l+1)}}{2}, & n=2l \ (\text{偶数}) \end{cases}\]

步骤3:求解尺度参数\(\sigma\)的MLE

\(\hat{\mu}=M_e\)代入对数似然函数,得到仅关于\(\sigma\)的函数:

\[l(\sigma) = -n\ln(2\sigma) - \frac{1}{\sigma}\sum_{i=1}^n |x_i - M_e| \]

\(\sigma\)求一阶导数并令其为0:

\[\frac{dl}{d\sigma} = -\frac{n}{\sigma} + \frac{1}{\sigma^2}\sum_{i=1}^n |x_i - M_e| = 0 \]

解得:\(\sigma = \frac{1}{n}\sum_{i=1}^n |x_i - M_e|\),二阶导数验证为最大值点。

最终结果

\[\hat{\mu} = M_e \ (\text{样本中位数}), \quad \hat{\sigma} = \frac{1}{n}\sum_{i=1}^n |X_i - M_e| \]


四、全部分布MLE汇总表

总体分布 待估参数 MLE表达式 核心求解特点
单参数指数分布\(\text{Exp}(\lambda)\) 率参数\(\lambda\) \(\hat{\lambda} = \frac{1}{\bar{X}} = \frac{n}{\sum X_i}\) 可微函数,似然方程直接求解,与矩估计一致
平移指数分布\(\mu+\text{Exp}(1)\) 位置参数\(\mu\) \(\hat{\mu} = X_{(1)}\)(样本最小值) 支撑与参数相关,似然函数单调,边界取极值
双参数指数分布\(\mu+\text{Exp}(\lambda)\) 位置参数\(\mu\)、率参数\(\lambda\) \(\hat{\mu}=X_{(1)},\ \hat{\lambda}=\frac{n}{\sum (X_i - X_{(1)})}\) 分步求解,先固定参数求位置参数极值,再求率参数
指数分布\(\text{Exp}(1/\sigma)\)(定数截尾) 平均寿命\(\sigma\) \(\hat{\sigma}=\frac{1}{r}\left( \sum_{i=1}^r X_{(i)} + (n-r)X_{(r)} \right)\) 基于次序统计量联合密度,考虑未失效样本的试验时间
指数分布\(\text{Exp}(1/\sigma)\)(定时截尾) 平均寿命\(\sigma\) \(\hat{\sigma}=\frac{1}{r}\left( \sum_{i=1}^r X_i + (n-r)x_0 \right)\) 基于定时截尾的似然函数,用截尾时间\(x_0\)替代未失效样本的寿命
多项分布\(MN(n,\pi)\) 类别概率\(\pi_i\) \(\hat{\pi}_i = \frac{N_i}{n}\) 带约束优化,拉格朗日乘子法求解,结果为频率估计
拉普拉斯分布\(LA(\mu,\sigma)\) 位置参数\(\mu\) \(\hat{\mu} = M_e\)(样本中位数) 含绝对值项不可导,最小化绝对偏差和,中位数为最优解
拉普拉斯分布\(LA(\mu,\sigma)\) 尺度参数\(\sigma\) \(\hat{\sigma} = \frac{1}{n}\sum |X_i - M_e|\) 代入中位数后,似然方程直接求解

五、MLE核心求解场景总结

通过以上所有例子,我们可以将MLE的求解场景归纳为4类,对应不同的处理方法:

  1. 无约束可微场景(如指数分布、正态分布、泊松分布):直接构造对数似然→求导→解似然方程→二阶导数验证;
  2. 支撑与参数相关的不可微场景(如均匀分布、平移指数分布):分析似然函数单调性,在参数边界取极值;
  3. 带约束优化场景(如多项分布):拉格朗日乘子法引入约束,转化为无约束问题求解;
  4. 非完全数据场景(如截尾数据):基于非完全样本的联合密度构造似然函数,纳入未观测样本的信息后求解。

posted on 2026-02-24 09:02  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航