Fisher Information
一、Fisher information
1、Fisher information 定义
\(\diamond\) 假设观察到的数据 \(X_1, X_2,..., X_n\) 服从概率分布 \(f(X;\theta)\),其中 \(\theta\) 为目标参数,则似然函数 \((likelihood)\) 有 \(L(\theta|X)=f(X;\theta)\).
\(\diamond\) 为了求得 \(MLE\),即 \(Maximum\) \(Likelihood\) \(Estimate\),由极大似然估计的相关知识可知需对 \(log\) \(likelihood\) 求一阶导数并令其等于 \(0\),然后解方程可得 \(\hat\theta_{MLE}\),这个对数似然函数的一阶导也被称为 \(score\) \(function\).
\(\diamond\)\(score\) \(function\) 用 \(S(X;\theta)\)来表示,\(Fisher\) \(information\) 用 \(I(\theta)\) 表示,其定义为 \(score\) \(function\) 的二阶矩,即 \(I(\theta)=E\left[{S(X;\theta)}^2\right]\).
2、Fisher infomation 意义
Fisher information 表示对数似然函数的一阶导的方差,即用来估计MLE的方程的方差
\(①\) 先证明对数似然函数一阶导期望为零
\begin{aligned}\mathrm{E}\left[\frac{\partial}{\partial \theta} \log f(X ; \theta)\right] &=\int \frac{\frac{\partial}{\partial \theta} f(x ; \theta)}{f(x ; \theta)} f(x ; \theta) d x \\&=\frac{\partial}{\partial \theta} \int f(x ; \theta) d x \\&=\frac{\partial}{\partial \theta} 1=0\end{aligned}
\(②\) 再根据方差与期望的关系可以得到
假设一些独立同分布的样本数据,当样本数据不断增多时,由于彼此之间相互独立,似然函数是一些独立随机变量求和的形式:
\begin{align}L(\theta|x)=\sum_{i=1}^{n} \log f(x_i;\theta)\end{align}
故方差也是一个独立求和的形式,随着数据的增加信息量会增多,方差会变大,直观来说就是 \(Fisher\) \(information\) 的增大可反映出信息量的增加。
Fisher information 表示 log likelihood 在参数真实值处的负二阶导数的期望
\(①\) 如果 \(log\) \(likelihood\) 二阶可导,则很容易证明 \(Fisher\) \(information\) 等于对数似然函数的海森矩阵(\(Hessian\) \(Metrix\))的期望取负.
\begin{align}I(\theta) & = -\mathrm{E}\left[\frac{\partial^{2}}{\partial \theta^{2}} \log f(X ; \theta)\right]\end{align}
\(MLE\) 具有渐进正态性,\(log\) \(likelihood\) 在参数真实值处的负二阶导数,就反应了 \(log\) \(likelihood\) 在顶点处的弯曲程度,弯曲程度越大,整个 \(log\) \(likelihood\) 的形状就越偏向于高而窄,也就代表掌握的信息越多,对参数估计的能力越好。
Fisher infomation 表示对参数估计的准确度,值越大,对参数估计的准确度越高
\(①\) 由泰勒展开、中心极限定理、大数定律 等数学知识可证MLE的渐进分布的方差是 \(I^{-1}(\theta)\).
!!!
关于对于第一个数学意义中的方差的我自己的理解:
这里的方差即为Fisher information,是score function的方差。其值越大,代表信息量越多,这里的方差大反映的是score function的离散程度大,由对数似然函数一阶导就是score function可知对数似然函数应该是高和窄的特点,高和窄代表在很小的参数范围内有很大的似然函数值,即小参数范围对应大的可能性,也就是说参数估计能力好,不至于在很宽泛的参数范围内有差不多的似然函数值,这种情况没有什么值得参数估计的,因为和最大似然估计相接近的参数值可以间隔很远而具有差不太多的参数性能。
关于第三个数学意义中的方差是最大似然估计渐进分布的方差,等于 \(I^{-1}(\theta)\),这里的方差越小就说明参数估计的效果越好,参数能使得参数估计值最大程度接近真实的结果。故Fisher infomation越大,即数据越多表示参数估计效果越好,这里的方差也越小。
二、Cramér–Rao Bound
参数估计的性能有三个方面的考量。
-
无偏性。
\begin{align}\mathrm{E}[\hat \theta]=\mathrm{E}\left[\theta \right]\end -
有效性。若存在多种无偏估计,将估计量方差最小的估计视为最有效的。
\begin{align}D(\hat \theta )= \mathrm{E}\left[(\hat \theta - \mathrm{E}(\hat \theta ))^2 \right] \end -
一致性。当样本总数逐渐增加时,估计量逐渐收敛于真实值。可以证明,最大似然估计函数在采样样本总数趋于无穷的时候达到最小方差。
任何无偏估计的方差均满足
\begin{align}Var(\hat \theta ) \geqslant \frac{1}{-\mathrm{E}\left[\frac{\partial^2 \ln f(x;\theta )}{\partial \theta ^2} \right ] }\end{align}
上述不等式说明任何无偏估计方差都有一个下界,这个下界就是克拉美罗界。由Fisher information知两者之间存在关系,即任何无偏估计的方差(克拉美洛界)至少大于等于Fisher infomation的倒数。

浙公网安备 33010602011771号