统计学(十一)——最大似然估计

最大似然估计（Maximum Likelihood Estimation, MLE）是一种用于统计推断的方法，旨在通过给定的数据找到使观测数据出现概率最大的参数值。极大似然估计法（the Principle of Maximum Likelihood ）由高斯和费希尔（R.A.Figher）先后提出，是被使用最广泛的一种参数估计方法，该方法建立的依据是直观的最大似然原理。通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。极大似然估计（Maximum likelihood estimation）可以简单理解为我们有一堆数据（数据之间是独立同分布的.iid），为了得到这些数据，我们设计了一个模型，极大似然估计就是求使模型能够得到这些数据的最大可能性的参数，这是一个统计（statistics）问题。

与概率（probability）的区别：概率是我们已知参数$\theta$来预测结果，比如对于标准高斯分布$X～N(0,1)$，我们知道了确切的表达式，那么最终通过模型得到的结果我们大致也可以猜测到。但是对于统计问题，我们预先知道了结果，比如我们有10000个样本（他们可能服从某一分布，假设服从高斯分布），我们的目的就是估计$\mu \& \sigma$使得我们假设的模型能够最大概率的生成我们目前知道的样本。

一、问题引入

1.1 例1

假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？

很多人马上就有答案了：70%。而其后的理论支撑是什么呢？

我们假设罐中白球的比例是$p$，那么黑球的比例就是1-$p$。因为每抽一个球出来，在记录颜色之后，我们把抽出的球放回了罐中并摇匀，所以每次抽出来的球的颜色服从同一独立分布。

这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中，七十次是白球的，三十次为黑球事件的概率是$P$(样本结果|Model)。如果第一次抽象的结果记为$x_1$,第二次抽样的结果记为$x_2$....那么样本结果为($x_1$,$x_2$,...,$x_{100}$)。这样，我们可以得到如下表达式：

\[P(样本结果|Model) 　　= P(x_1,x_2,...,x_{100}|Model)\\ 　　= P(x_1|Model)P(x_2|Model)…P(x_{100}|Model)\\ 　　= p^{70}(1-p)^{30} \]

好的，我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数，也就是求的式中的$p$。
那么我们怎么来求这个$p$呢？不同的$p$，直接导致$P（样本结果|Model）$的不同。好的，我们的$p$实际上是有无数多种分布的。如下：

$p$(白球的比例）	1-$p$(黑球的比例）		$p$(白球的比例）	1-$p$(黑球的比例）
50%	50%		70%	30%

那么问题来了，既然有无数种分布可以选择，极大似然估计应该按照什么原则去选取这个分布呢？
采取的方法是让这个样本结果出现的可能性最大，也就是使得$p^{70}(1-p)^{30}$值最大，那么我们就可以看成是$p$的方程，求导即可！
那么既然事情已经发生了，为什么不让这个出现的结果的可能性最大呢？这也就是最大似然估计的核心。
我们想办法让观察样本出现的概率最大，转换为数学问题就是使得：
$p^{70}(1-p)^{30}$最大，未知数只有一个$p$，我们令其导数为0，即可求出$p$为70%，与我们一开始认为的70%是一致的，其中蕴含的数学思想在里面。

1.2 例2

假设我们要统计全国人民的年均收入，首先假设这个收入服从服从正态分布，但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的收入。我们国家有10几亿人口呢？那么岂不是没有办法了？
不不不，有了极大似然估计之后，我们可以采用嘛！我们比如选取一个城市，或者一个乡镇的人口收入，作为我们的观察样本结果。然后通过最大似然估计来获取上述假设中的正态分布的参数。
有了参数的结果后，我们就可以知道该正态分布的期望和方差了。也就是我们通过了一个小样本的采样，反过来知道了全国人民年收入的一系列重要的数学指标量！

二、似然函数

似然性（likelihood）与概率（possibility）同样可以表示事件发生的可能性大小，但是二者有着很大的区别：

概率$p(x|\theta)$是在已知参数$\theta$ 的情况下，发生观测结果 $x$ 可能性大小；
似然性$L(\theta|x)$ 则是从观测结果$x$出发，分布函数的参数为 $\theta$的可能性大小。

可能听着不是那么好理解。似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性，用$L$表示，给定输出$x$时，关于参数$\theta$的似然函数$$L(\theta|x)$$在数值上等于给定参数$\theta$后变量$x$的概率

\[L(θ|x)=P(X=x|θ)=p(x|\theta) \]

其中$x$已知，$\theta$未知。若对于两个参数$\theta_1,\theta_2 $，有

\[L(\theta_1|x)=p(x|\theta_1)>p(x|\theta_2)=L(\theta_2|x) \]

那么意味着 $\theta=\theta_1 $时，随机变量 $X$生成$x$的概率大于当参数 $\theta=\theta_2$ 时。这也正是似然的意义所在，若观测数据为 $x$，那么 $\theta_1$是比$\theta_2$更有可能为分布函数的参数。在不同的时候，$p(x|\theta)$可以表示概率也可以用于计算似然。

在统计学习中，我们有$N$个样本$x_{1}, x_{2}, x_{3},...,x_{N}$，假设他们之间是相互独立的，那么似然函数

\[L(θ)=P(X_1=x_1,X_2=x_2,...,X_N=x_N)=\prod_{i = 1}^{N}p(X_i=x_i)=\prod_{i = 1}^{N}p(x_i,θ) \]

极大似然函数的目的就是求解一个$\theta$使得$L(\theta)$最大。

三、正态分布的最大似然估计（MLE）

这里用一维高斯分布来判断$\mu$和$\sigma^2$的无偏性及有偏性，一维正态高斯分布函数

\[f(x|\theta)=f(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\ e^{-\frac{(x-\mu)^2}{2\sigma ^2}} \]

其中最大似然估计MLE：$\hat\theta = \underset {\theta}{{arg\,max}}~lnL(X|\mu, \sigma)$

(1)已知$\sigma^{2}$，未知$\mu$，求$\mu$的最大似然估计量$\hat\mu$

似然函数: $L(X \mid \mu)=\prod_{i=1}^N p\left(x_i \mid \mu\right)=\prod_{i=1}^N \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_i-\mu\right)^2}{2 \sigma^2}}$
两边分别取对数: $\ln L(X \mid \mu)=\ln \prod_{i=1}^N p\left(x_i \mid \mu\right)=-\frac{N}{2} \ln (2 \pi)-N \ln \sigma-\frac{1}{2 \sigma^2} \sum_{i=1}^N\left(x_i-\mu\right)^2$
两边对 $\mu$ 求导

\[\begin{gathered} \frac{d \ln L(X \mid \mu)}{d \mu}=\sum_{i=1}^N \frac{1}{\sigma^2}\left(x_i-\mu\right)=0 \\ \sum_{i=1}^N\left(x_i-\mu\right)=0 \rightarrow \sum_{i=1}^N x_i-N \mu=0 \\ \hat{\mu}=\frac{1}{N} \sum_{i=1}^N x_i=\bar{X} \end{gathered} \]

可以发现，当$\sigma^2$已知时，$\mu$的最大似然估计量只受样本的影响， $\hat{\mu}$ 是 $\mu$ 的无偏估计

\[E[\hat{\mu}]=E\left[\frac{1}{N} \sum_{i=1}^N x_i\right]=\frac{1}{N} \sum_{i=1}^N E\left[x_i\right]=\frac{1}{N} N \mu=\mu \]

(2)已知$\mu$，未知$\sigma^{2}$，求$\sigma^{2}$的最大似然估计量$\hat\sigma^{2}$

似然函数:
$L\left(X \mid \sigma^2\right)=\prod_{i=1}^N p\left(x_i \mid \sigma^2\right)=\prod_{i=1}^N \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_i-\mu\right)^2}{2 \sigma^2}}$
两边分别取对数:
$\ln L\left(X \mid \sigma^2\right)=\ln \prod_{i=1}^N p\left(x_i \mid \sigma^2\right)=-\frac{N}{2} \ln (2 \pi)-N \ln \sigma-\frac{1}{2 \sigma^2} \sum_{i=1}^N\left(x_i-\mu\right)^2$ 两边对 $\sigma^2$ 求导

\[\begin{gathered} \frac{d \ln L\left(X \mid \sigma^2\right)}{d \sigma^2}=\sum_{i=1}^N \frac{1}{\sigma^2}\left(x_i-\mu\right)=0 \\ -\frac{N}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^N\left(x_i-\mu\right)^2=0 \\ \hat{\sigma}^2=\frac{1}{N} \sum_{i=1}^N\left(x_i-\mu\right)^2 \end{gathered} \]

可以发现，当$\mu$已知时，$\hat{\sigma}^2$ 的最大似然估计量受到样本以及样本均值的影响， $\hat{\sigma}^2$ 是 $\sigma^2$ 的无偏估计

\[\begin{aligned} &E\left[\hat{\sigma}^2\right]=E\left[\frac{1}{N} \sum_{i=1}^N\left(x_i-\mu\right)^2\right]=E\left[\frac{1}{N} \sum_{i=1}^N x_i^2-\frac{1}{N} \sum_{i=1}^N 2 x_i \mu+\frac{1}{N} \sum_{i=1}^N \mu^2\right]=E\left[\frac{1}{N} \sum_N^{i=1} x_i^2-2 \mu^2+\mu^2\right] \\ &=E\left[\frac{1}{N} \sum_{i=1}^N x_i^2-\mu^2\right]=\frac{1}{N} \sum_{i=1}^N\left(E\left(x_i^2\right)-E^2\left(x_i\right)\right)=D\left(x_i\right)=\sigma^2 \end{aligned} \]

(3)$\mu$和$\sigma^{2}$均未知，求$\mu$、$\sigma^{2}$的最大似然估计量$\hat\mu$和$\hat\sigma^{2}$

似然函数: $L\left(X \mid \mu, \sigma^2\right)=\prod_{i=1}^N p\left(x_i \mid \mu, \sigma^2\right)=\prod_{i=1}^N \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_i-\mu\right)^2}{2 \sigma^2}}$
两边分别取对数: $\ln L\left(X \mid \mu, \sigma^2\right)=\ln \prod_{i=1}^N p\left(x_i \mid \mu, \sigma^2\right)=-\frac{N}{2} \ln (2 \pi)-N \ln \sigma-\frac{1}{2 \sigma^2} \sum_{i=1}^N\left(x_i-\mu\right)^2$

两边对 $\mu$ 求导

两边对 $\sigma^2$ 求导

可以发现，当 $\mu$ 的最大似然估计量 $\hat{\mu}$ 只受样本的影响（因为在计算时 $\sigma^2$ 被消去了）， $\hat{\mu}$ 是 $\mu$ 的无偏估计 $E[\hat{\mu}]=E[\bar{X}]=E\left[\frac{1}{N} \sum_{i=1}^N x_i\right]=\frac{1}{N} \sum_{i=1}^N E\left[x_i\right]=\frac{1}{N} N \mu=\mu$

但是在计算$\sigma^{2}$的最大似然估计量$\hat \sigma^{2}$不仅受到样本的影响，还受到$\mu$的影响，其中$\mu$未知，只能用计算出的$\hat \mu$来替代，通过下面计算可以发现$\hat \sigma^{2}$是$\sigma^{2}$的有偏估计

\[\begin{aligned} E\left[\hat{\sigma}^2\right] & =E\left[\frac{1}{N} \sum_{i=1}^N\left(x_i-\bar{X}\right)^2\right]=E\left[\frac{1}{N} \sum_{i=1}^N x_i^2-\frac{1}{N} \sum_{i=1}^N 2 x_i \bar{X}+\frac{1}{N} \sum_{i=1}^N \bar{X}^2\right] \\ &=E\left[\frac{1}{N} \sum_N^{i=1} x_i^2-2 \bar{X}^2+\bar{X}^2\right]=E\left\{\left(\frac{1}{N} \sum_{i=1}^N x_i^2-\bar{X}^2\right)-\left(\bar{X}^2-\bar{X}^2\right)\right\} \\ &=E\left[\left(\frac{1}{N} \sum_{i=1}^N x_i^2-\bar{X}^2\right)\right]-E\left(\bar{X}^2-\bar{X}^2\right) \\ &=\frac{1}{N} \sum_{i=1}^N\left[E\left(x_i^2\right)-E^2\left(x_i\right)\right]-\left[E\left(\bar{X}^2\right)-E^2(\bar{X})\right] \\ &=D\left(x_i\right)-D(\bar{X})=\sigma^2-\frac{\sigma^2}{N}=\frac{N-1}{N} \sigma^2 \end{aligned} \]

所以在计算样本的方差 $S^2$ 时，需要在在前面乘上一个系数，即 $S^2=\frac{N}{N-1} E\left[\hat{\sigma}^2\right]$

四、二项分布的最大似然估计（MLE）

4.1 似然函数的构造

二项分布（Binomial Distribution）的概率质量函数（PMF）定义如下：

\[P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, 2, \dots, n \]

其中：

$ n $ 是试验次数（已知常数）；
$ p $ 是单次试验成功的概率（待估参数）；
$ k $ 是成功的次数；
$ \binom{n}{k} $ 是二项系数，表示从 $ n $ 次试验中选取 $ k $ 次成功的方法数。

假设我们有 $ m $ 组独立观测数据 $ (X_1, X_2, \dots, X_m) $，每个 $ X_i $ 都服从相同的二项分布 $ \text{Bin}(n, p) $。则联合似然函数（Likelihood Function）为：

\[L(p) = \prod_{i=1}^{m} P(X_i = k_i) = \prod_{i=1}^{m} \binom{n}{k_i} p^{k_i} (1 - p)^{n - k_i} \]

由于二项系数 $ \binom{n}{k_i} $ 仅依赖于已知的 $ n $ 和 $ k_i $，它在参数 $ p $ 取不同值时保持不变，因此在最大化似然函数时可以忽略它，仅考虑：

\[L(p) \propto \prod_{i=1}^{m} p^{k_i} (1 - p)^{n - k_i} \]

为了简化计算，我们通常对似然函数取对数，得到对数似然函数（Log-Likelihood Function）：

\[\ell(p) = \sum_{i=1}^{m} \left( k_i \log p + (n - k_i) \log (1 - p) \right) \]

4.2 计算导数并求解最大值

为了找到最大似然估计 $ \hat{p} $，我们需要对 $ \ell(p) $ 求导，并令其等于零：

\[\frac{d}{dp} \ell(p) = \sum_{i=1}^{m} \left( \frac{k_i}{p} - \frac{n - k_i}{1 - p} \right) = 0 \]

整理得：

\[\sum_{i=1}^{m} \frac{k_i}{p} = \sum_{i=1}^{m} \frac{n - k_i}{1 - p} \]

将求和符号展开：

\[\frac{\sum_{i=1}^{m} k_i}{p} = \frac{m n - \sum_{i=1}^{m} k_i}{1 - p} \]

令 $ S = \sum_{i=1}^{m} k_i $ 表示所有样本中成功次数的总和，则方程变为：

\[\frac{S}{p} = \frac{m n - S}{1 - p} \]

交叉相乘：

\[S (1 - p) = (m n - S) p \]

展开并整理：

\[S - S p = m n p - S p \]

\[S = m n p \]

\[\hat{p} = \frac{S}{m n} \]

4.3 二阶导数验证极大值

为了验证 $ \hat{p} $ 确实是极大值，我们计算二阶导数：

\[\frac{d^2}{dp^2} \ell(p) = \sum_{i=1}^{m} \left( -\frac{k_i}{p^2} - \frac{n - k_i}{(1 - p)^2} \right) \]

由于 $ p $ 在 $ (0,1) $ 之间，上述二阶导数恒为负，因此 $ \ell(p) $ 在 $ p = \hat{p} $ 处为极大值，即最大似然估计值。

4.4 结论与解释

二项分布的最大似然估计（MLE）为：

\[\hat{p} = \frac{\sum_{i=1}^{m} X_i}{m n} \]

即，MLE 估计值等于所有观测数据中成功次数的总和 $ S $ 除以所有试验的总数 $ m n $。这表明，二项分布的最大似然估计值就是样本中成功的相对频率。最大似然估计的直觉是：我们希望找到一个 $ p $ 使得观察到的数据最有可能发生。而观察到的样本成功率 $ S / (m n) $ 就是对 $ p $ 的最佳估计，因为它直接反映了数据中的成功比例。

总结

如果总体$X$为离散型
假设分布率为$P=p(x;\theta)$，$x$是发生的样本，$\theta$是待估计的参数，$p(x;\theta)$表示估计参数为$\theta$时，发生$x$的概率。那么当我们的样本值为：$x_{1},x_2,...,x_{n}$时，

\[L(\theta )=L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta )=\prod _{ i=1 }^{ n }{ p({ x }_{ i };\theta ) } \]

其中$L(\theta)$成为样本的似然函数。

假设

\[L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\hat {\theta } )=\underset { \theta \in \Theta }{ max } L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta ) \]

有$\hat{\theta}$使得$L(\theta)$的取值最大，那么$\hat{\theta}$就叫做参数$\theta $的极大似然估计值。

如果总体$X$为连续型
和上面类似，只是概率密度为$f(x;\theta)$，替代$p$。

解法
1）构造似然函数$L(\theta)$
2）取对数：$lnL(\theta)$
3）求导，计算极值
4）解方程，得到$\theta$
极大似然估计就是在只有概率的情况下，忽略低概率事件直接将高概率事件认为是真实事件的思想。

参考文献

posted @ 2022-11-07 22:32 郝hai 阅读(4626) 评论(0) 收藏举报

刷新页面返回顶部

haohai9309

格物致知，知行合一！