夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

3.3.1最大似然估计（MLE）

最大似然估计（MLE）全知识点详解与推导

作为统计学中最核心、应用最广泛的参数估计方法，最大似然估计的核心思想是“概率最大的事件最可能发生”：当我们已经获得一组样本观测值时，使得这组观测值出现的概率（概率密度）最大的参数值，就是对真实参数的最优估计。

一、核心定义与基础性质证明

1. 基本设定

设总体 \(X\) 的概率密度（连续型）/分布律（离散型）为 \(f(x;\theta)\)，其中 \(\theta \in \Theta\) 是待估未知参数，\(\Theta\) 为参数空间；\(X_1,X_2,\dots,X_n\) 是来自 \(X\) 的独立同分布（i.i.d.）样本，\(x_1,x_2,\dots,x_n\) 是对应的样本观测值。

2. 似然函数与对数似然函数

似然函数：将样本联合分布视为参数 \(\theta\) 的函数，称为似然函数

\[L(\theta;x) = L(\theta) = \prod_{i=1}^n f(x_i;\theta), \quad \theta \in \Theta \]
本质：固定样本观测值 \(x\)，描述不同参数 \(\theta\) 下，观测到当前样本的“可能性大小”。
对数似然函数：对似然函数取自然对数，记为

\[l(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i;\theta) \]

核心性质证明：对数似然与原似然同解

命题：若分布族 \(\{f(x;\theta),\theta\in\Theta\}\) 有共同支撑（即 \(f(x;\theta)>0\) 的 \(x\) 范围与 \(\theta\) 无关），则 \(L(\theta)\) 和 \(l(\theta)\) 的最大值点完全相同。
证明：对数函数 \(y=\ln t\) 在 \(t>0\) 上是严格单调递增函数，因此对任意 \(\theta_1,\theta_2\in\Theta\)，有

\[L(\theta_1) > L(\theta_2) \iff \ln L(\theta_1) > \ln L(\theta_2) \]

因此使 \(L(\theta)\) 取最大值的 \(\hat{\theta}\)，与使 \(l(\theta)\) 取最大值的 \(\hat{\theta}\) 完全一致。
意义：将乘积形式的似然函数转化为求和形式，大幅简化求导计算，是MLE求解的核心技巧。

3. 最大似然估计的严格定义

若存在统计量 \(\hat{\theta} = \hat{\theta}(X_1,X_2,\dots,X_n)\)，使得对任意 \(\theta\in\Theta\)，都有

\[L(\hat{\theta};x) = \max_{\theta\in\Theta} L(\theta;x) \]

则称 \(\hat{\theta}\) 为 \(\theta\) 的最大似然估计（MLE），对应的观测值 \(\hat{\theta}(x_1,\dots,x_n)\) 为最大似然估计值。

4. 关键注记的证明与解释

似然函数可忽略与θ无关的正常数
若 \(c(x)>0\) 且与 \(\theta\) 无关，则 \(c(x)L(\theta)\) 与 \(L(\theta)\) 最大值点相同。
证明：\(c(x)>0\) 时，\(\max_{\theta} c(x)L(\theta) = c(x)\max_{\theta} L(\theta)\)，两者最大值点完全一致。
似然方程（可微情形的必要条件）
若 \(l(\theta)\) 关于 \(\theta\) 可微，则最大值点一定满足一阶导数为0，即似然方程：

\[\frac{dl(\theta)}{d\theta} = 0 \quad (\text{单参数}) \quad ; \quad \frac{\partial l(\theta)}{\partial \theta_i} = 0 \quad (\text{多参数}) \]
注意：似然方程的解仅为驻点，不一定是最大值点，需验证二阶导数<0，或结合单调性/边界情况判断；若似然函数不可微（如均匀分布），则不能用似然方程，需直接分析单调性。
MLE必为充分统计量的函数
证明：根据因子分解定理，若 \(T(X)\) 是 \(\theta\) 的充分统计量，则样本联合密度可分解为

\[f(x;\theta) = g(T(x);\theta) \cdot h(x) \]
其中 \(h(x)\) 与 \(\theta\) 无关，\(g\) 仅通过 \(T(x)\) 依赖样本。
似然函数 \(L(\theta) = g(T(x);\theta) \cdot h(x)\)，由注记1，\(L(\theta)\) 的最大值点等价于 \(g(T(x);\theta)\) 的最大值点，因此 \(\hat{\theta}\) 必为 \(T(x)\) 的函数，即 \(\hat{\theta}=\hat{\theta}(T(x))\)。
意义：MLE充分利用了样本中关于参数的全部信息，符合统计推断的充分性原则。

二、MLE的通用求解步骤

情形1：似然函数关于参数可微（指数族分布，如二项、泊松、正态）

写出样本联合分布，构造似然函数 \(L(\theta)\)；
取对数得到对数似然函数 \(l(\theta)\)，忽略与 \(\theta\) 无关的常数项；
对 \(\theta\) 求导（多参数求偏导），令导数为0，得到似然方程/方程组；
求解似然方程，得到驻点；
验证驻点为最大值点（二阶导数<0，或结合分布性质判断全局最优）；
用样本统计量表示MLE的最终形式。

情形2：似然函数不可微/似然方程无解（支撑与θ有关，如均匀分布）

写出似然函数，通过示性函数明确样本与参数的约束条件；
分析似然函数在参数空间上的单调性；
结合约束条件，找到使似然函数最大的参数值，即为MLE。

三、经典分布的MLE详细推导

例1：二项分布与伯努利分布的MLE

(1) 单样本二项分布 \(X \sim b(n,p)\)，求 \(p\) 的MLE

二项分布的分布律：

\[f(x;p) = \binom{n}{x} p^x (1-p)^{n-x}, \quad x=0,1,\dots,n, \ 0<p<1 \]

似然函数：\(L(p) = \binom{n}{x} p^x (1-p)^{n-x}\)
对数似然：\(l(p) = \ln\binom{n}{x} + x\ln p + (n-x)\ln(1-p)\)（忽略常数项 \(\ln\binom{n}{x}\)）
求导：\(\frac{dl}{dp} = \frac{x}{p} - \frac{n-x}{1-p}\)
似然方程：\(\frac{x}{p} - \frac{n-x}{1-p} = 0\)，解得 \(p = \frac{x}{n}\)
最大值验证：二阶导数 \(\frac{d^2l}{dp^2} = -\frac{x}{p^2} - \frac{n-x}{(1-p)^2} < 0\)，驻点为全局最大值点
最终结果：\(p\) 的MLE为 \(\hat{p} = \frac{X}{n}\)

(2) 伯努利分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim b(1,p)\)，求 \(p\) 的MLE

伯努利分布的分布律：\(f(x_i;p) = p^{x_i}(1-p)^{1-x_i}, \ x_i\in\{0,1\}\)

似然函数：\(L(p) = \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i} (1-p)^{n-\sum x_i}\)，令 \(t=\sum_{i=1}^n x_i\)
对数似然：\(l(p) = t\ln p + (n-t)\ln(1-p)\)
求导并令导数为0，解得 \(p = \frac{t}{n} = \bar{x}\)
二阶导数<0，验证为最大值点
最终结果：\(\hat{p} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}\)（样本均值）

(3) 标记重捕法（鱼塘估计）

鱼塘总鱼数 \(N\)，先捕 \(m\) 条标记放回，再捕 \(n\) 条，其中 \(x\) 条带标记。带标记鱼的比例 \(p=\frac{m}{N}\)，第二次捕鱼 \(X\sim b(n,p)\)。

由(1)得 \(p\) 的MLE为 \(\hat{p}=\frac{x}{n}\)，代入 \(p=\frac{m}{N}\)，解得 \(N\) 的MLE：

\[\hat{N} = \frac{mn}{x} \]

代入 \(m=500,n=1000,x=100\)，得 \(\hat{N}=5000\)。

例2：泊松分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim P(\lambda)\)，求 \(\lambda\) 的MLE

泊松分布的分布律：

\[f(x_i;\lambda) = \frac{e^{-\lambda}\lambda^{x_i}}{x_i!}, \quad x_i=0,1,2,\dots, \ \lambda>0 \]

似然函数：\(L(\lambda) = \prod_{i=1}^n \frac{e^{-\lambda}\lambda^{x_i}}{x_i!} = e^{-n\lambda} \lambda^{\sum x_i} \cdot \frac{1}{\prod x_i!}\)
对数似然：\(l(\lambda) = -n\lambda + (\sum x_i)\ln\lambda - \ln(\prod x_i!)\)（忽略常数项）
求导：\(\frac{dl}{d\lambda} = -n + \frac{\sum x_i}{\lambda}\)
似然方程：\(-n + \frac{\sum x_i}{\lambda}=0\)，解得 \(\lambda = \frac{1}{n}\sum x_i = \bar{x}\)
最大值验证：二阶导数 \(\frac{d^2l}{d\lambda^2} = -\frac{\sum x_i}{\lambda^2} < 0\)，驻点为全局最大值点
最终结果：\(\hat{\lambda} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}\)（样本均值）

应用：白细胞数据

样本量 \(n=1008\)，计算得 \(\sum k\cdot n_k=2846\)，因此 \(\hat{\lambda}=\bar{x}=\frac{2846}{1008}\approx2.82\)，即平均每个细胞单位的白细胞数为2.82。

例3：正态分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim N(\mu,\sigma^2)\)，求 \(\mu,\sigma^2\) 的MLE

正态分布的概率密度：

\[f(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma^2} \right\} \]

似然函数：
\[L(\mu,\sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 \right\} \]
对数似然：
\[l(\mu,\sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 \]
求偏导并构造似然方程组：
- 对 \(\mu\) 求偏导：\(\frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n (x_i-\mu) = 0\)，解得 \(\mu = \frac{1}{n}\sum x_i = \bar{x}\)
- 对 \(\sigma^2\) 求偏导：\(\frac{\partial l}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (x_i-\mu)^2 = 0\)，解得 \(\sigma^2 = \frac{1}{n}\sum (x_i-\mu)^2\)
代入求解：将 \(\mu=\bar{x}\) 代入，得 \(\sigma^2 = \frac{1}{n}\sum (x_i-\bar{x})^2\)
最大值验证：
- 对任意固定 \(\sigma^2\)，\(\sum (x_i-\mu)^2\) 在 \(\mu=\bar{x}\) 时取最小值，因此 \(l(\mu,\sigma^2)\) 在 \(\mu=\bar{x}\) 时取最大值；
- 代入 \(\mu=\bar{x}\) 后，二阶导数 \(\frac{d^2l}{d(\sigma^2)^2} = -\frac{n}{2\hat{\sigma}^4} < 0\)，因此 \(\hat{\sigma}^2\) 为最大值点。
最终结果：
\[\hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i, \quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2 \]

拓展：一元线性回归模型的MLE

模型：\(X_i = a + bu_i + e_i\)，\(e_i \text{ i.i.d.} \sim N(0,\sigma^2)\)，待估参数 \(a,b,\sigma^2\)。

似然函数：\(L(a,b,\sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i -a -bu_i)^2 \right\}\)
最大化似然等价于最小化残差平方和 \(R(a,b)=\sum (x_i -a -bu_i)^2\)
求导解得：
\[\hat{b} = \frac{Q_{xu}}{Q_{uu}}, \quad \hat{a} = \bar{X} - \hat{b}\bar{u} \]
其中 \(Q_{xu}=\sum (x_i-\bar{x})(u_i-\bar{u})\)，\(Q_{uu}=\sum (u_i-\bar{u})^2\)
\(\sigma^2\) 的MLE：\(\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \hat{a} - \hat{b}u_i)^2\)

结论：正态误差假设下，线性回归系数的MLE与最小二乘估计（LSE）完全等价。

例4：均匀分布的MLE（不可微情形）

均匀分布 \(R(a,b)\) 的概率密度：\(f(x;a,b)=\frac{1}{b-a}, \ a\leq x\leq b\)，样本联合密度为：

\[f(x;a,b) = \frac{1}{(b-a)^n} \cdot I\{a\leq x_{(1)}\} \cdot I\{x_{(n)}\leq b\} \]

其中 \(x_{(1)}=\min(x_1,\dots,x_n)\)（样本最小值），\(x_{(n)}=\max(x_1,\dots,x_n)\)（样本最大值），\(I\{\cdot\}\) 为示性函数。

(1) \(X_1 \sim R(0,\theta), \theta>0\)，求 \(\theta\) 的MLE

似然函数：\(L(\theta) = \frac{1}{\theta^n} \cdot I\{\theta \geq x_{(n)}\}\)

当 \(\theta \geq x_{(n)}\) 时，\(L(\theta)=\theta^{-n}\)，关于 \(\theta\) 严格单调递减，因此 \(\theta\) 越小，\(L(\theta)\) 越大；
\(\theta\) 的最小取值为 \(x_{(n)}\)，此时 \(L(\theta)\) 取最大值。

最终结果：\(\hat{\theta} = X_{(n)}\)（样本最大值）。

(2) \(X_1 \sim R(\theta,3\theta), \theta>0\)，求 \(\theta\) 的MLE

似然函数：\(L(\theta) = \frac{1}{(2\theta)^n} \cdot I\left\{ \frac{x_{(n)}}{3} \leq \theta \leq x_{(1)} \right\}\)

区间内 \(L(\theta)\) 关于 \(\theta\) 严格单调递减，\(\theta\) 最小值为 \(\frac{x_{(n)}}{3}\)，此时 \(L(\theta)\) 最大。

最终结果：\(\hat{\theta} = \frac{X_{(n)}}{3}\)。

(3) \(X_1 \sim R(\theta,\theta+1), \theta\in\mathbb{R}\)，求 \(\theta\) 的MLE

似然函数：\(L(\theta) = I\{ x_{(n)}-1 \leq \theta \leq x_{(1)} \}\)

区间内 \(L(\theta)=1\)（最大值），区间外 \(L(\theta)=0\)，因此MLE不唯一，所有满足 \(X_{(n)}-1 \leq \hat{\theta} \leq X_{(1)}\) 的统计量都是 \(\theta\) 的MLE。

(4) \(X_1 \sim R(\mu-\sigma/2, \mu+\sigma/2), \sigma>0\)，求 \(\mu,\sigma\) 的MLE

似然函数：\(L(\mu,\sigma) = \frac{1}{\sigma^n} \cdot I\left\{ \mu-\frac{\sigma}{2} \leq x_{(1)}, \ x_{(n)} \leq \mu+\frac{\sigma}{2} \right\}\)

最大化 \(L(\mu,\sigma)\) 等价于最小化 \(\sigma\)，约束条件要求 \(\sigma \geq x_{(n)}-x_{(1)}\)，因此 \(\sigma\) 的最小值为样本极差 \(x_{(n)}-x_{(1)}\)；
代入 \(\sigma=x_{(n)}-x_{(1)}\)，解得 \(\mu = \frac{x_{(1)}+x_{(n)}}{2}\)。

最终结果：

\[\hat{\mu} = \frac{X_{(1)}+X_{(n)}}{2}, \quad \hat{\sigma} = X_{(n)}-X_{(1)} \]

四、MLE的核心性质总结

性质	内容	补充说明
不变性	若 \(\hat{\theta}\) 是 \(\theta\) 的MLE，\(g(\theta)\) 是 \(\theta\) 的单值可测函数，则 \(g(\hat{\theta})\) 是 \(g(\theta)\) 的MLE	例：正态分布中 \(\sigma\) 的MLE为 \(\sqrt{\hat{\sigma}^2}\)，无需重新推导
充分性	MLE一定是充分统计量的函数	保证MLE充分利用样本中的参数信息，无信息损失
渐近正态性	正则条件下，\(\sqrt{n}(\hat{\theta}-\theta) \xrightarrow{d} N(0, 1/I(\theta))\)，\(I(\theta)\) 为Fisher信息	大样本下，MLE渐近无偏、渐近有效，达到C-R方差下界
强相合性	正则条件下，\(\hat{\theta} \xrightarrow{a.s.} \theta \ (n\to\infty)\)	样本量足够大时，MLE几乎必然收敛到真实参数
无偏性	MLE不一定是无偏估计	例：正态分布的 \(\hat{\sigma}^2\)、均匀分布的 \(\hat{\theta}=X_{(n)}\) 均为有偏估计，需修正后可得到无偏估计

五、常见分布MLE汇总表

总体分布	待估参数	MLE表达式	核心说明
二项分布 \(b(n,p)\)	成功概率 \(p\)	\(\hat{p} = \frac{X}{n}\)	单样本情形，驻点为全局最大值点
伯努利分布 \(b(1,p)\)	成功概率 \(p\)	\(\hat{p} = \bar{X} = \frac{1}{n}\sum X_i\)	n个样本情形，与二项分布结果等价
泊松分布 \(P(\lambda)\)	强度参数 \(\lambda\)	\(\hat{\lambda} = \bar{X} = \frac{1}{n}\sum X_i\)	与总体期望一致，矩估计与MLE结果相同
正态分布 \(N(\mu,\sigma^2)\)	均值 \(\mu\)	\(\hat{\mu} = \bar{X}\)	无偏估计，矩估计与MLE结果相同
正态分布 \(N(\mu,\sigma^2)\)	方差 \(\sigma^2\)	\(\hat{\sigma}^2 = \frac{1}{n}\sum (X_i-\bar{X})^2\)	有偏估计，无偏修正为 \(S^2=\frac{1}{n-1}\sum (X_i-\bar{X})^2\)
均匀分布 \(R(0,\theta)\)	区间上限 \(\theta\)	\(\hat{\theta} = X_{(n)}\)（样本最大值）	似然函数不可微，在边界取最大值，与矩估计结果不同
均匀分布 \(R(a,b)\)	区间端点 \(a,b\)	\(\hat{a}=X_{(1)},\ \hat{b}=X_{(n)}\)	样本最小值与最大值，支撑与参数相关，无法用似然方程求解
均匀分布 \(R(\mu-\sigma/2,\mu+\sigma/2)\)	位置参数 \(\mu\)、尺度参数 \(\sigma\)	\(\hat{\mu}=\frac{X_{(1)}+X_{(n)}}{2},\ \hat{\sigma}=X_{(n)}-X_{(1)}\)	由样本极值与极差构造，体现MLE对边界信息的利用

补充分布MLE全知识点详解与推导

承接之前的最大似然估计核心框架，我们继续对指数分布（含位置参数、截尾数据）、多项分布、拉普拉斯分布的MLE进行完整推导与讲解，覆盖可微求解、约束优化、非可微极值求解、截尾数据等核心场景。

一、例3.3.5 指数分布（伽马分布特例）的MLE详细推导

首先明确伽马分布的参数化：本教材中，\(\Gamma(\alpha,\beta)\) 表示形状参数为\(\alpha\)、尺度参数为\(\beta\)的伽马分布，概率密度为：

\[f(x;\alpha,\beta) = \frac{1}{\Gamma(\alpha)\beta^\alpha} x^{\alpha-1} e^{-x/\beta}, \quad x>0 \]

当\(\alpha=1\)时，伽马分布退化为指数分布\(\text{Exp}(1/\beta)\)，即\(f(x)=\frac{1}{\beta}e^{-x/\beta}, x>0\)，期望为\(\beta\)。

(1) 单参数指数分布 \(X_1 \sim \Gamma(\lambda,1)\)（即\(\text{Exp}(\lambda)\)），求\(\lambda\)的MLE

设\(X_1,X_2,\dots,X_n\)独立同分布，\(X_i \sim \Gamma(\lambda,1)\)，结合教材推导，此处为\(\alpha=1\)的指数分布，单个样本的概率密度为：

\[f(x_i;\lambda) = \lambda e^{-\lambda x_i}, \quad x_i>0, \lambda>0 \]

步骤1：构造似然函数

样本联合密度（似然函数）为各样本密度的乘积：

\[L(\lambda;x) = \prod_{i=1}^n \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^n x_i} \cdot I\{x_{(1)} \geq 0\} \]

其中\(x_{(1)}=\min(x_1,\dots,x_n)\)为样本最小值，示性函数\(I\{\cdot\}\)保证样本非负，与\(\lambda\)无关，后续可忽略。

步骤2：构造对数似然函数

对似然函数取自然对数，忽略与\(\lambda\)无关的项：

\[l(\lambda) = n\ln\lambda - \lambda \sum_{i=1}^n x_i \]

步骤3：求导构造似然方程

对\(\lambda\)求一阶导数，令导数为0：

\[\frac{dl}{d\lambda} = \frac{n}{\lambda} - \sum_{i=1}^n x_i = 0 \]

步骤4：求解与最大值验证

解方程得：\(\lambda = \frac{n}{\sum_{i=1}^n x_i} = \frac{1}{\bar{x}}\)，其中\(\bar{x}=\frac{1}{n}\sum x_i\)为样本均值。
二阶导数验证：\(\frac{d^2l}{d\lambda^2} = -\frac{n}{\lambda^2} < 0\)，因此驻点为全局最大值点。

最终结果

\(\lambda\)的最大似然估计为：

\[\hat{\lambda} = \frac{1}{\bar{X}} = \frac{n}{\sum_{i=1}^n X_i} \]

补充注记：若\(X_1 \sim \Gamma(1/\sigma,1)\)（即指数分布\(\text{Exp}(1/\sigma)\)，期望为\(\sigma\)），代入上式可得平均寿命\(\sigma\)的MLE为\(\hat{\sigma} = \bar{X}\)，与矩估计结果一致。

(2) 带位置参数的指数分布 \(X_1 \sim \mu + \Gamma(1,1)\)，求\(\mu\)的MLE

该分布为平移指数分布，单个样本的概率密度为：

\[f(x_i;\mu) = e^{-(x_i - \mu)}, \quad x_i \geq \mu, \mu \in \mathbb{R} \]

即\(X_i - \mu \sim \text{Exp}(1)\)，支撑为\(x_i \geq \mu\)，与待估参数\(\mu\)相关，无法用似然方程求导求解，需直接分析似然函数的单调性。

步骤1：构造似然函数

样本联合密度：

\[L(\mu;x) = \prod_{i=1}^n e^{-(x_i - \mu)} \cdot I\{x_{(1)} \geq \mu\} = e^{n\mu - \sum_{i=1}^n x_i} \cdot I\{x_{(1)} \geq \mu\} \]

步骤2：分析单调性与最大值

当\(\mu \leq x_{(1)}\)时，示性函数为1，似然函数\(L(\mu) = e^{n\mu - \sum x_i}\)，关于\(\mu\)严格单调递增，因此\(\mu\)越大，\(L(\mu)\)越大；
\(\mu\)的最大取值为\(x_{(1)}\)（若\(\mu > x_{(1)}\)，示性函数为0，似然函数为0，无意义）。

因此当\(\mu = x_{(1)}\)时，似然函数取得最大值。

最终结果

\(\mu\)的最大似然估计为：

\[\hat{\mu} = X_{(1)} = \min(X_1,X_2,\dots,X_n) \]

(3) 双参数平移指数分布 \(X_1 \sim \mu + \Gamma(\lambda,1)\)，求\(\lambda,\mu\)的MLE

该分布为带位置参数\(\mu\)、率参数\(\lambda\)的双参数指数分布，单个样本密度为：

\[f(x_i;\lambda,\mu) = \lambda e^{-\lambda(x_i - \mu)}, \quad x_i \geq \mu, \lambda>0, \mu\in\mathbb{R} \]

步骤1：构造似然函数

样本联合密度：

\[L(\lambda,\mu;x) = \prod_{i=1}^n \lambda e^{-\lambda(x_i - \mu)} \cdot I\{x_{(1)} \geq \mu\} = \lambda^n e^{-\lambda \sum_{i=1}^n (x_i - \mu)} \cdot I\{x_{(1)} \geq \mu\} \]

整理得：

\[L(\lambda,\mu;x) = \lambda^n e^{n\lambda \mu} e^{-\lambda \sum x_i} \cdot I\{x_{(1)} \geq \mu\} \]

步骤2：分步求解MLE（先固定\(\lambda\)，求\(\mu\)的最优解）

对任意固定的\(\lambda>0\)，似然函数中与\(\mu\)相关的项为\(e^{n\lambda \mu} \cdot I\{x_{(1)} \geq \mu\}\)：

当\(\mu \leq x_{(1)}\)时，\(e^{n\lambda \mu}\)关于\(\mu\)严格单调递增，因此\(\mu\)的最优取值为\(x_{(1)}\)，即\(\hat{\mu}=X_{(1)}\)。

步骤3：代入\(\hat{\mu}\)，求\(\lambda\)的MLE

将\(\mu = x_{(1)}\)代入似然函数，得到仅关于\(\lambda\)的对数似然函数：

\[l(\lambda) = n\ln\lambda - \lambda \sum_{i=1}^n (x_i - x_{(1)}) \]

对\(\lambda\)求导并令导数为0：

\[\frac{dl}{d\lambda} = \frac{n}{\lambda} - \sum_{i=1}^n (x_i - x_{(1)}) = 0 \]

解得：\(\lambda = \frac{n}{\sum_{i=1}^n (x_i - x_{(1)})}\)，二阶导数\(\frac{d^2l}{d\lambda^2}=-\frac{n}{\lambda^2}<0\)，验证为最大值点。

步骤4：全局最优性验证

对任意\((\lambda,\mu)\)，有：

\[L(\hat{\lambda},\hat{\mu};x) \geq L(\lambda,\hat{\mu};x) \geq L(\lambda,\mu;x) \]

因此\(\hat{\lambda},\hat{\mu}\)为全局最优的MLE。

最终结果

\[\hat{\mu} = X_{(1)}, \quad \hat{\lambda} = \frac{n}{\sum_{i=1}^n (X_i - X_{(1)})} \]

(4) 截尾数据下指数分布的MLE（可靠性/生存分析核心场景）

设器件寿命\(X_1 \sim \Gamma(\sigma^{-1},1)\)，即\(X_i \sim \text{Exp}(1/\sigma)\)，概率密度\(f(x)=\frac{1}{\sigma}e^{-x/\sigma}, x>0\)，期望\(E(X)=\sigma\)为平均寿命。截尾数据分为定数截尾和定时截尾两类，分别推导如下：

(a) 定数截尾数据

试验设计：对\(n\)个器件进行寿命试验，直到观测到前\(r\)个失效的寿命数据\(X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(r)}\)，剩余\(n-r\)个器件在\(X_{(r)}\)时刻仍未失效，停止试验。

步骤1：推导截尾样本的联合密度

次序统计量的联合密度公式：前\(r\)个次序统计量的联合密度为

\[f(y_1,\dots,y_r) = \frac{n!}{(n-r)!} \prod_{i=1}^r f(y_i) \cdot [1-F(y_r)]^{n-r}, \quad 0\leq y_1<y_2<\dots<y_r \]

其中\(F(x)=1-e^{-x/\sigma}\)为指数分布的分布函数，\(1-F(y_r)=e^{-y_r/\sigma}\)。

代入指数分布的密度与生存函数，得：

\[f(y_1,\dots,y_r;\sigma) = \frac{n!}{(n-r)!} \cdot \frac{1}{\sigma^r} \exp\left\{ -\frac{1}{\sigma}\left( \sum_{i=1}^r y_i + (n-r)y_r \right) \right\} \cdot I\{0\leq y_1<\dots<y_r\} \]

步骤2：构造对数似然函数

忽略与\(\sigma\)无关的常数项，对数似然函数为：

\[l(\sigma) = -r\ln\sigma - \frac{1}{\sigma}\left( \sum_{i=1}^r y_i + (n-r)y_r \right) \]

步骤3：求导求解似然方程

对\(\sigma\)求一阶导数并令其为0：

\[\frac{dl}{d\sigma} = -\frac{r}{\sigma} + \frac{1}{\sigma^2}\left( \sum_{i=1}^r y_i + (n-r)y_r \right) = 0 \]

解方程得：

\[\sigma = \frac{1}{r}\left( \sum_{i=1}^r y_i + (n-r)y_r \right) \]

二阶导数验证：\(\frac{d^2l}{d\sigma^2} = \frac{r}{\sigma^2} - \frac{2}{\sigma^3}T_{n,r} < 0\)（代入\(\sigma=T_{n,r}/r\)），验证为最大值点。

最终结果

平均寿命\(\sigma\)的MLE为：

\[\hat{\sigma} = \frac{T_{n,r}}{r}, \quad T_{n,r} = \sum_{i=1}^r X_{(i)} + (n-r)X_{(r)} \]

其中\(T_{n,r}\)为总试验时间，包含失效器件的寿命和未失效器件的试验时长。

(b) 定时截尾数据

试验设计：对\(n\)个器件进行寿命试验，预先设定截尾时间\(x_0\)，试验到\(x_0\)时刻停止，观测到\(r\)个器件在\(x_0\)前失效，寿命为\(X_1,X_2,\dots,X_r\)，剩余\(n-r\)个器件在\(x_0\)时刻仍未失效。

步骤1：推导定时截尾样本的联合密度

定时截尾的样本联合密度为：

\[f(y_1,\dots,y_r;\sigma) = \frac{n!}{(n-r)!} \prod_{i=1}^r f(y_i) \cdot [1-F(x_0)]^{n-r}, \quad 0\leq y_i \leq x_0 \]

其中\(1-F(x_0)=e^{-x_0/\sigma}\)为器件在\(x_0\)时刻未失效的概率。

代入指数分布的密度，得：

\[f(y_1,\dots,y_r;\sigma) = \frac{n!}{(n-r)!} \cdot \frac{1}{\sigma^r} \exp\left\{ -\frac{1}{\sigma}\left( \sum_{i=1}^r y_i + (n-r)x_0 \right) \right\} \cdot I\{y_i \geq 0\} \]

步骤2：构造对数似然函数

忽略与\(\sigma\)无关的常数项，对数似然函数为：

\[l(\sigma) = -r\ln\sigma - \frac{1}{\sigma}\left( \sum_{i=1}^r y_i + (n-r)x_0 \right) \]

步骤3：求导求解似然方程

对\(\sigma\)求一阶导数并令其为0：

\[\frac{dl}{d\sigma} = -\frac{r}{\sigma} + \frac{1}{\sigma^2}\left( \sum_{i=1}^r y_i + (n-r)x_0 \right) = 0 \]

解得：

\[\sigma = \frac{1}{r}\left( \sum_{i=1}^r y_i + (n-r)x_0 \right) \]

最终结果

平均寿命\(\sigma\)的MLE为：

\[\hat{\sigma} = \frac{T'_{n,r}}{r}, \quad T'_{n,r} = \sum_{i=1}^r X_i + (n-r)x_0 \]

其中\(T'_{n,r}\)为定时截尾的总试验时间。

二、例3.3.6 多项分布的MLE详细推导

分布定义

多项分布\(N=(N_1,N_2,\dots,N_k)^T \sim MN(n,\pi)\)，表示\(n\)次独立重复试验，每次试验有\(k\)个互斥的结果，第\(i\)个结果出现的概率为\(\pi_i\)，\(N_i\)为\(n\)次试验中第\(i\)个结果出现的次数，满足\(\sum_{i=1}^k N_i = n\)，\(\sum_{i=1}^k \pi_i = 1\)，\(\pi_i>0\)。

分布律为：

\[p(n_1,n_2,\dots,n_k;\pi) = \frac{n!}{n_1!n_2!\dots n_k!} \pi_1^{n_1} \pi_2^{n_2} \dots \pi_k^{n_k} \]

求解思路

待估参数\(\pi=(\pi_1,\dots,\pi_k)\)满足约束条件\(\sum_{i=1}^k \pi_i=1\)，属于带约束的极值优化问题，采用拉格朗日乘子法求解。

步骤1：构造对数似然函数

忽略与\(\pi\)无关的常数项，对数似然函数为：

\[l(\pi) = \sum_{i=1}^k n_i \ln\pi_i \]

步骤2：构造拉格朗日函数

引入拉格朗日乘子\(\lambda\)，构造带约束的目标函数：

\[L_A(\pi,\lambda) = \sum_{i=1}^k n_i \ln\pi_i - \lambda\left( \sum_{i=1}^k \pi_i - 1 \right) \]

步骤3：求偏导构造方程组

分别对\(\pi_i\)和\(\lambda\)求偏导，令偏导数为0：

对\(\lambda\)求偏导：\(\frac{\partial L_A}{\partial \lambda} = -\sum_{i=1}^k \pi_i + 1 = 0\)，即约束条件\(\sum_{i=1}^k \pi_i=1\)；
对\(\pi_i\)求偏导：\(\frac{\partial L_A}{\partial \pi_i} = \frac{n_i}{\pi_i} - \lambda = 0\)，解得\(\pi_i = \frac{n_i}{\lambda}\)。

步骤4：代入约束条件求解

将\(\pi_i = \frac{n_i}{\lambda}\)代入\(\sum_{i=1}^k \pi_i=1\)，得：

\[\sum_{i=1}^k \frac{n_i}{\lambda} = 1 \implies \lambda = \sum_{i=1}^k n_i = n \]

因此\(\pi_i = \frac{n_i}{n}\)，二阶偏导验证海塞矩阵负定，为最大值点。

最终结果

\(\pi_i\)的最大似然估计为：

\[\hat{\pi}_i = \frac{N_i}{n}, \quad i=1,2,\dots,k \]

直观意义：每个类别出现的概率的MLE，等于该类别在试验中出现的频率，符合“频率估计概率”的直觉。

三、例3.3.7 拉普拉斯分布的MLE详细推导

分布定义

拉普拉斯分布（双指数分布）\(X_1 \sim LA(\mu,\sigma)\)，概率密度为：

\[f(x;\mu,\sigma) = \frac{1}{2\sigma} \exp\left\{ -\frac{|x-\mu|}{\sigma} \right\}, \quad x\in\mathbb{R}, \sigma>0 \]

其中\(\mu\)为位置参数（中位数），\(\sigma\)为尺度参数，期望\(E(X)=\mu\)，方差\(\text{Var}(X)=2\sigma^2\)。

求解思路

似然函数中包含绝对值项，关于\(\mu\)不可导，无法直接用似然方程，需先分析\(\mu\)的最优解，再求解\(\sigma\)的MLE。

步骤1：构造似然函数与对数似然函数

样本联合密度：

\[L(\mu,\sigma;x) = \prod_{i=1}^n \frac{1}{2\sigma} \exp\left\{ -\frac{|x_i-\mu|}{\sigma} \right\} = \left( \frac{1}{2\sigma} \right)^n \exp\left\{ -\frac{1}{\sigma}\sum_{i=1}^n |x_i-\mu| \right\} \]

对数似然函数：

\[l(\mu,\sigma) = -n\ln(2\sigma) - \frac{1}{\sigma}\sum_{i=1}^n |x_i-\mu| \]

步骤2：求解位置参数\(\mu\)的MLE

对任意固定的\(\sigma>0\)，最大化\(l(\mu,\sigma)\)等价于最小化绝对偏差和：

\[\varphi(\mu) = \sum_{i=1}^n |x_i - \mu| \]

将样本按从小到大排序为次序统计量\(x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}\)，则\(\varphi(\mu) = \sum_{i=1}^n |x_{(i)} - \mu|\)，分区间分析\(\varphi(\mu)\)的单调性：

当\(\mu < x_{(1)}\)时，\(\varphi(\mu) = \sum_{i=1}^n (x_{(i)} - \mu) = \sum x_{(i)} - n\mu\)，斜率为\(-n < 0\)，\(\varphi(\mu)\)严格递减；
当\(\mu > x_{(n)}\)时，\(\varphi(\mu) = \sum_{i=1}^n (\mu - x_{(i)}) = n\mu - \sum x_{(i)}\)，斜率为\(n > 0\)，\(\varphi(\mu)\)严格递增；
当\(\mu \in [x_{(k)},x_{(k+1)}], k=1,\dots,n-1\)时，
\[\varphi(\mu) = \sum_{i=1}^k (\mu - x_{(i)}) + \sum_{i=k+1}^n (x_{(i)} - \mu) = (2k-n)\mu - \sum_{i=1}^k x_{(i)} + \sum_{i=k+1}^n x_{(i)} \]
斜率为\(2k-n\)：
- 当\(k < n/2\)时，斜率\(<0\)，\(\varphi(\mu)\)递减；
- 当\(k > n/2\)时，斜率\(>0\)，\(\varphi(\mu)\)递增。

因此\(\varphi(\mu)\)在样本中位数处取得最小值，分两种情况：

n为奇数：\(n=2l+1\)，当\(\mu = x_{(l+1)}\)时，\(\varphi(\mu)\)取得最小值，因此\(\hat{\mu}=X_{(l+1)}\)；
n为偶数：\(n=2l\)，当\(\mu \in [x_{(l)},x_{(l+1)}]\)时，\(\varphi(\mu)\)取得最小值，通常取区间中点作为MLE，即\(\hat{\mu}=\frac{X_{(l)}+X_{(l+1)}}{2}\)。

综上，\(\mu\)的MLE为样本中位数\(M_e\)：

\[\hat{\mu} = M_e = \begin{cases} X_{(l+1)}, & n=2l+1 \ (\text{奇数}) \\ \frac{X_{(l)}+X_{(l+1)}}{2}, & n=2l \ (\text{偶数}) \end{cases}\]

步骤3：求解尺度参数\(\sigma\)的MLE

将\(\hat{\mu}=M_e\)代入对数似然函数，得到仅关于\(\sigma\)的函数：

\[l(\sigma) = -n\ln(2\sigma) - \frac{1}{\sigma}\sum_{i=1}^n |x_i - M_e| \]

对\(\sigma\)求一阶导数并令其为0：

\[\frac{dl}{d\sigma} = -\frac{n}{\sigma} + \frac{1}{\sigma^2}\sum_{i=1}^n |x_i - M_e| = 0 \]

解得：\(\sigma = \frac{1}{n}\sum_{i=1}^n |x_i - M_e|\)，二阶导数验证为最大值点。

最终结果

\[\hat{\mu} = M_e \ (\text{样本中位数}), \quad \hat{\sigma} = \frac{1}{n}\sum_{i=1}^n |X_i - M_e| \]

四、全部分布MLE汇总表

总体分布	待估参数	MLE表达式	核心求解特点
单参数指数分布\(\text{Exp}(\lambda)\)	率参数\(\lambda\)	\(\hat{\lambda} = \frac{1}{\bar{X}} = \frac{n}{\sum X_i}\)	可微函数，似然方程直接求解，与矩估计一致
平移指数分布\(\mu+\text{Exp}(1)\)	位置参数\(\mu\)	\(\hat{\mu} = X_{(1)}\)（样本最小值）	支撑与参数相关，似然函数单调，边界取极值
双参数指数分布\(\mu+\text{Exp}(\lambda)\)	位置参数\(\mu\)、率参数\(\lambda\)	\(\hat{\mu}=X_{(1)},\ \hat{\lambda}=\frac{n}{\sum (X_i - X_{(1)})}\)	分步求解，先固定参数求位置参数极值，再求率参数
指数分布\(\text{Exp}(1/\sigma)\)（定数截尾）	平均寿命\(\sigma\)	\(\hat{\sigma}=\frac{1}{r}\left( \sum_{i=1}^r X_{(i)} + (n-r)X_{(r)} \right)\)	基于次序统计量联合密度，考虑未失效样本的试验时间
指数分布\(\text{Exp}(1/\sigma)\)（定时截尾）	平均寿命\(\sigma\)	\(\hat{\sigma}=\frac{1}{r}\left( \sum_{i=1}^r X_i + (n-r)x_0 \right)\)	基于定时截尾的似然函数，用截尾时间\(x_0\)替代未失效样本的寿命
多项分布\(MN(n,\pi)\)	类别概率\(\pi_i\)	\(\hat{\pi}_i = \frac{N_i}{n}\)	带约束优化，拉格朗日乘子法求解，结果为频率估计
拉普拉斯分布\(LA(\mu,\sigma)\)	位置参数\(\mu\)	\(\hat{\mu} = M_e\)（样本中位数）	含绝对值项不可导，最小化绝对偏差和，中位数为最优解
拉普拉斯分布\(LA(\mu,\sigma)\)	尺度参数\(\sigma\)	\(\hat{\sigma} = \frac{1}{n}\sum \|X_i - M_e\|\)	代入中位数后，似然方程直接求解

五、MLE核心求解场景总结

通过以上所有例子，我们可以将MLE的求解场景归纳为4类，对应不同的处理方法：

无约束可微场景（如指数分布、正态分布、泊松分布）：直接构造对数似然→求导→解似然方程→二阶导数验证；
支撑与参数相关的不可微场景（如均匀分布、平移指数分布）：分析似然函数单调性，在参数边界取极值；
带约束优化场景（如多项分布）：拉格朗日乘子法引入约束，转化为无约束问题求解；
非完全数据场景（如截尾数据）：基于非完全样本的联合密度构造似然函数，纳入未观测样本的信息后求解。

posted on 2026-02-24 09:02 Indian_Mysore 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一

3.3.1最大似然估计（MLE）

最大似然估计（MLE）全知识点详解与推导

一、核心定义与基础性质证明

1. 基本设定

2. 似然函数与对数似然函数

核心性质证明：对数似然与原似然同解

3. 最大似然估计的严格定义

4. 关键注记的证明与解释

二、MLE的通用求解步骤

情形1：似然函数关于参数可微（指数族分布，如二项、泊松、正态）

情形2：似然函数不可微/似然方程无解（支撑与θ有关，如均匀分布）

三、经典分布的MLE详细推导

例1：二项分布与伯努利分布的MLE

(1) 单样本二项分布 \(X \sim b(n,p)\)，求 \(p\) 的MLE

(2) 伯努利分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim b(1,p)\)，求 \(p\) 的MLE

(3) 标记重捕法（鱼塘估计）

例2：泊松分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim P(\lambda)\)，求 \(\lambda\) 的MLE

应用：白细胞数据

例3：正态分布 \(X_1,\dots,X_n \text{ i.i.d.} \sim N(\mu,\sigma^2)\)，求 \(\mu,\sigma^2\) 的MLE

拓展：一元线性回归模型的MLE

例4：均匀分布的MLE（不可微情形）

(1) \(X_1 \sim R(0,\theta), \theta>0\)，求 \(\theta\) 的MLE

(2) \(X_1 \sim R(\theta,3\theta), \theta>0\)，求 \(\theta\) 的MLE

(3) \(X_1 \sim R(\theta,\theta+1), \theta\in\mathbb{R}\)，求 \(\theta\) 的MLE

(4) \(X_1 \sim R(\mu-\sigma/2, \mu+\sigma/2), \sigma>0\)，求 \(\mu,\sigma\) 的MLE

四、MLE的核心性质总结

五、常见分布MLE汇总表

补充分布MLE全知识点详解与推导

一、例3.3.5 指数分布（伽马分布特例）的MLE详细推导

(1) 单参数指数分布 \(X_1 \sim \Gamma(\lambda,1)\)（即\(\text{Exp}(\lambda)\)），求\(\lambda\)的MLE

步骤1：构造似然函数

步骤2：构造对数似然函数

步骤3：求导构造似然方程

步骤4：求解与最大值验证

最终结果

(2) 带位置参数的指数分布 \(X_1 \sim \mu + \Gamma(1,1)\)，求\(\mu\)的MLE

步骤1：构造似然函数

步骤2：分析单调性与最大值

最终结果

(3) 双参数平移指数分布 \(X_1 \sim \mu + \Gamma(\lambda,1)\)，求\(\lambda,\mu\)的MLE

步骤1：构造似然函数

步骤2：分步求解MLE（先固定\(\lambda\)，求\(\mu\)的最优解）

步骤3：代入\(\hat{\mu}\)，求\(\lambda\)的MLE

步骤4：全局最优性验证

最终结果

(4) 截尾数据下指数分布的MLE（可靠性/生存分析核心场景）

(a) 定数截尾数据

步骤1：推导截尾样本的联合密度

步骤2：构造对数似然函数

步骤3：求导求解似然方程

最终结果

(b) 定时截尾数据

步骤1：推导定时截尾样本的联合密度

步骤2：构造对数似然函数

步骤3：求导求解似然方程

最终结果

二、例3.3.6 多项分布的MLE详细推导

分布定义

求解思路

步骤1：构造对数似然函数

步骤2：构造拉格朗日函数

步骤3：求偏导构造方程组

步骤4：代入约束条件求解

最终结果

三、例3.3.7 拉普拉斯分布的MLE详细推导

分布定义

求解思路

步骤1：构造似然函数与对数似然函数

步骤2：求解位置参数\(\mu\)的MLE

步骤3：求解尺度参数\(\sigma\)的MLE

最终结果

四、全部分布MLE汇总表

五、MLE核心求解场景总结

导航

公告