昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

2.3.1Fisher信息与正则分布族

Fisher信息与正则分布族 详细讲解与推导

一、引入:统计推断中“信息”的定义

在之前的学习中,我们知道充分统计量的核心价值是压缩样本信息且不损失关于未知参数的任何信息。但一个根本问题是:到底什么是统计意义上的“信息”?我们需要一个严格、可计算、符合直观的数学定义,满足:

  1. 完整样本的信息 = 充分统计量的信息(无信息损失);
  2. n个独立同分布样本的总信息 = 单个样本信息的n倍(信息可加);
  3. 信息越大,对参数的推断精度越高。

统计学中应用最广泛的信息度量是Fisher(费希尔)信息,同时我们也会介绍Kullback-Leibler(K-L)信息。而Fisher信息的严格定义,必须建立在Cramer-Rao正则分布族的基础上。


二、Cramer-Rao正则分布族(正则条件)

定义

设总体\(X\)服从分布族\(\mathcal{F} = \{f(x,\theta), \theta \in \Theta\}\),其中\(\theta = (\theta_1,\theta_2,\dots,\theta_k)^T\)为k维未知参数,\(\Theta\)为参数空间。若\(\mathcal{F}\)满足以下5个条件,则称其为Cramer-Rao正则分布族(简称正则分布族)。

我们逐条拆解每个条件的意义、必要性与反例:

条件序号 条件内容 核心意义与必要性 反例(不满足的情况)
(1) 参数空间\(\Theta\)\(\mathbb{R}^k\)上的开集;分布族可识别:\(\theta \neq \theta'\)时,\(\mu\{x:f(x,\theta)\neq f(x,\theta')\}>0\) 1. 开集保证参数求导的邻域合法性;
2. 可识别性是统计推断的前提:不同参数对应不同分布,否则无法通过样本区分参数
不可识别例子:\(X\sim N(\theta_1+\theta_2,1)\)\(\theta=(1,0)\)\(\theta=(0,1)\)对应同一分布
(2) 对数似然\(L(\theta,x)=\log f(x,\theta)\)关于\(\theta\)存在二阶以上连续偏导数,前二阶导数记为\(\dot{L}(\theta)\)(梯度)、\(\ddot{L}(\theta)\)(海森矩阵) 为定义得分函数、Fisher信息提供可导性基础 支撑集随参数变化的分布,如均匀分布\(U(0,\theta)\),对数似然在\(x=\theta\)处不可导
(3) 得分函数\(S(x,\theta)=\dot{L}(\theta)\)的前二阶矩存在,即\(E_\theta\left[\frac{\partial L}{\partial \theta_i}\cdot\frac{\partial L}{\partial \theta_j}\right]\)对所有\(\theta,i,j\)存在 保证Fisher信息矩阵是良定义的,不会出现无穷大或不存在的情况 重尾分布如柯西分布,得分函数的二阶矩不存在
(4) 分布族有共同支撑:\(S_\theta=\{x:f(x,\theta)>0\}\)\(\theta\)无关 支撑集不随参数变化,保证积分与求导交换的合法性,是正则条件的核心约束 均匀分布\(U(0,\theta)\),支撑集为\((0,\theta)\),与\(\theta\)直接相关,非正则分布族
(5) \(f(x,\theta)\)关于\(x\)的积分与关于\(\theta\)的求导可交换次序,即\(\frac{\partial}{\partial \theta_i}\int f(x,\theta)dx = \int \frac{\partial}{\partial \theta_i}f(x,\theta)dx\) 是推导得分函数期望为0、Fisher信息等价形式的核心数学依据 支撑集随参数变化的分布,求导与积分交换不成立

三、得分函数(Score Function)的定义与核心性质

定义

对正则分布族,得分函数定义为对数似然关于参数的梯度:

  • 单参数:\(S(x,\theta) = \frac{d L(\theta,x)}{d\theta} = \frac{d \log f(x,\theta)}{d\theta}\)
  • 多参数:\(S(x,\theta) = \nabla_\theta L(\theta,x) = \left( \frac{\partial \log f(x,\theta)}{\partial \theta_1}, \dots, \frac{\partial \log f(x,\theta)}{\partial \theta_k} \right)^T\)
  • n个i.i.d.样本:样本对数似然为\(L(\theta,X)=\sum_{i=1}^n \log f(X_i,\theta)\),因此样本得分函数为\(S(X,\theta)=\sum_{i=1}^n S(X_i,\theta)\)(单个样本得分的和)。

核心性质:正则条件下,得分函数的期望为0

\[E_\theta\left[ S(X,\theta) \right] = 0 \]

详细推导证明(单参数为例,多参数完全类似)

  1. 由概率密度的基本性质:\(\int_{S} f(x,\theta) dx = 1\)\(S\)为共同支撑集(与\(\theta\)无关)。
  2. 等式两边对\(\theta\)求导:\(\frac{d}{d\theta} \int_{S} f(x,\theta) dx = \frac{d}{d\theta}1 = 0\)
  3. 由正则条件(5),交换求导与积分次序:\(\int_{S} \frac{d}{d\theta}f(x,\theta) dx = 0\)
  4. 复合函数求导:\(\frac{d}{d\theta}\log f(x,\theta) = \frac{1}{f(x,\theta)}\cdot\frac{d}{d\theta}f(x,\theta)\),因此\(\frac{d}{d\theta}f(x,\theta) = f(x,\theta)\cdot S(x,\theta)\)
  5. 代入积分式:\(\int_{S} S(x,\theta) \cdot f(x,\theta) dx = E_\theta\left[ S(X,\theta) \right] = 0\)

性质意义

得分函数是对数似然的梯度,其期望为0,说明在参数真实值处,对数似然的平均斜率为0,与极大似然估计的极值思想一致。同时,该性质直接给出Fisher信息的简化形式:得分函数的方差 = 得分函数平方的期望,这正是Fisher信息的定义。


四、Fisher信息的定义、等价形式与推导

1. 单参数Fisher信息

原始定义

对正则分布族,单参数\(\theta\)的Fisher信息为得分函数的平方的期望,同时也是得分函数的方差(因期望为0):

\[I(\theta) = E_\theta\left[ \left( \frac{d L(\theta,X)}{d\theta} \right)^2 \right] = Var_\theta\left( S(X,\theta) \right) \]

核心等价形式(最常用计算式)

\[I(\theta) = - E_\theta\left[ \frac{d^2 L(\theta,X)}{d\theta^2} \right] \]

Fisher信息 = 对数似然二阶导数的期望的负数

详细推导证明
  1. 对得分函数再次求导,得到对数似然的二阶导数:

    \[\begin{align*} \frac{d^2 L}{d\theta^2} &= \frac{d}{d\theta}\left( \frac{1}{f}\cdot\frac{df}{d\theta} \right) \\ &= -\frac{1}{f^2}\cdot\left( \frac{df}{d\theta} \right)^2 + \frac{1}{f}\cdot\frac{d^2 f}{d\theta^2} \\ &= - \left( \frac{dL}{d\theta} \right)^2 + \frac{1}{f}\cdot\frac{d^2 f}{d\theta^2} \end{align*} \]

  2. 等式两边取期望:

    \[E_\theta\left[ \frac{d^2 L}{d\theta^2} \right] = - E_\theta\left[ \left( \frac{dL}{d\theta} \right)^2 \right] + E_\theta\left[ \frac{1}{f}\cdot\frac{d^2 f}{d\theta^2} \right] \]

  3. 计算第二项:\(E_\theta\left[ \frac{1}{f}\cdot\frac{d^2 f}{d\theta^2} \right] = \int_{S} \frac{d^2 f}{d\theta^2} dx\),由正则条件(5),交换积分与求导:

    \[\int_{S} \frac{d^2 f}{d\theta^2} dx = \frac{d^2}{d\theta^2}\int_{S} f dx = \frac{d^2}{d\theta^2}1 = 0 \]

  4. 整理得:\(E_\theta\left[ \frac{d^2 L}{d\theta^2} \right] = -I(\theta)\),即\(I(\theta) = - E_\theta\left[ \frac{d^2 L}{d\theta^2} \right]\)
等价形式的优势

实际计算中,该形式无需计算平方的期望,仅需计算二阶导数的期望,大幅简化计算量,尤其适用于指数族分布。

2. 多参数Fisher信息矩阵

对k维参数\(\theta=(\theta_1,\dots,\theta_k)^T\)Fisher信息矩阵\(I(\theta)=(I_{ij}(\theta))_{k\times k}\)的元素定义为:

\[I_{ij}(\theta) = E_\theta\left[ \frac{\partial L}{\partial \theta_i} \cdot \frac{\partial L}{\partial \theta_j} \right] = - E_\theta\left[ \frac{\partial^2 L}{\partial \theta_i \partial \theta_j} \right] \]

矩阵形式为:

\[I(\theta) = E_\theta\left[ S(X,\theta) S(X,\theta)^T \right] = - E_\theta\left[ \nabla_\theta^2 L(\theta,X) \right] \]

本质是得分函数的方差-协方差矩阵。

3. 统计量的Fisher信息

若统计量\(T=T(X)\)的分布族\(\{g(t,\theta),\theta\in\Theta\}\)为正则分布族,则\(T\)的Fisher信息定义为:

\[I_T(\theta) = E_\theta\left[ \left( \frac{d \log g(T,\theta)}{d\theta} \right)^2 \right] = - E_\theta\left[ \frac{d^2 \log g(T,\theta)}{d\theta^2} \right] \]

多参数下为对应的信息矩阵。


五、Fisher信息的核心性质与推导

性质1:独立样本的Fisher信息具有可加性

\(X_1,\dots,X_n\)为i.i.d.样本,单个样本的Fisher信息为\(I_1(\theta)\),则全样本的Fisher信息为:

\[I_n(\theta) = n \cdot I_1(\theta) \]

详细推导证明

  1. 全样本对数似然:\(L(\theta,X) = \sum_{i=1}^n \log f(X_i,\theta) = \sum_{i=1}^n L_1(\theta,X_i)\)
  2. 求导得得分函数:\(\frac{dL}{d\theta} = \sum_{i=1}^n S(X_i,\theta)\)
  3. 计算Fisher信息:

    \[\begin{align*} I_n(\theta) &= E_\theta\left[ \left( \sum_{i=1}^n S(X_i,\theta) \right)^2 \right] \\ &= \sum_{i=1}^n E_\theta\left[ S(X_i,\theta)^2 \right] + 2\sum_{1\leq i<j\leq n} E_\theta\left[ S(X_i,\theta)S(X_j,\theta) \right] \end{align*} \]

  4. 第一项:每个\(E[S(X_i,\theta)^2]=I_1(\theta)\),和为\(nI_1(\theta)\)
  5. 第二项:\(X_i\)\(X_j\)独立,故\(E[S(X_i)S(X_j)]=E[S(X_i)]E[S(X_j)]=0\times0=0\)
  6. 最终得\(I_n(\theta)=nI_1(\theta)\)

意义

完美符合直觉:样本量越大,总信息量越多,参数推断的精度越高。

性质2:充分统计量的Fisher信息等于样本的Fisher信息(无信息损失)

\(T=T(X)\)\(\theta\)的充分统计量,则\(I_T(\theta) = I(\theta)\)

详细推导证明

  1. 由因子分解定理,充分统计量的密度可分解为:\(f(x,\theta)=g(T(x),\theta)h(x)\),其中\(h(x)\)\(\theta\)无关。
  2. 取对数得:\(L(\theta,x) = \log g(T(x),\theta) + \log h(x) = L_T(\theta,T) + \log h(x)\)
  3. \(\theta\)求导,\(\log h(x)\)的导数为0,故\(\frac{dL}{d\theta} = \frac{dL_T}{d\theta}\),即样本得分函数与\(T\)的得分函数完全相等。
  4. 因此\(I(\theta) = E\left[ \left( \frac{dL}{d\theta} \right)^2 \right] = E\left[ \left( \frac{dL_T}{d\theta} \right)^2 \right] = I_T(\theta)\)

意义

从数学上严格证明了充分统计量的核心价值:完全保留样本中关于参数的所有信息,无任何损失。

性质3:非负性

  • 单参数:\(I(\theta)\geq0\),当且仅当\(S(x,\theta)=0\)几乎处处成立时,\(I(\theta)=0\)
  • 多参数:Fisher信息矩阵是半正定矩阵,分布族可识别时为正定矩阵。

六、Fisher信息计算示例

示例1:正态分布\(N(\theta,1)\)(单参数,均值未知,方差已知)

  1. 对数似然:\(L(\theta,x) = -\frac{1}{2}\log(2\pi) - \frac{(x-\theta)^2}{2}\)
  2. 一阶导数:\(\frac{dL}{d\theta} = x-\theta\)
  3. 原始定义计算:\(I(\theta)=E[(X-\theta)^2] = Var(X)=1\)
  4. 等价形式验证:二阶导数\(\frac{d^2L}{d\theta^2}=-1\),故\(I(\theta)=-E[-1]=1\),结果一致。
  5. n个样本的Fisher信息:\(I_n(\theta)=n\times1=n\)

示例2:正态分布\(N(\mu,\sigma^2)\)(多参数,\(\theta=(\mu,\sigma^2)^T\)

  1. 对数似然:\(L(\mu,\sigma^2,x) = -\frac{1}{2}\log(2\pi) - \frac{1}{2}\log\sigma^2 - \frac{(x-\mu)^2}{2\sigma^2}\)
  2. 二阶偏导数:

    \[\frac{\partial^2 L}{\partial \mu^2}=-\frac{1}{\sigma^2}, \quad \frac{\partial^2 L}{\partial \mu\partial\sigma^2}=-\frac{x-\mu}{\sigma^4}, \quad \frac{\partial^2 L}{(\partial\sigma^2)^2}=\frac{1}{2\sigma^4}-\frac{(x-\mu)^2}{\sigma^6} \]

  3. 取期望:

    \[E\left[\frac{\partial^2 L}{\partial \mu^2}\right]=-\frac{1}{\sigma^2}, \quad E\left[\frac{\partial^2 L}{\partial \mu\partial\sigma^2}\right]=0, \quad E\left[\frac{\partial^2 L}{(\partial\sigma^2)^2}\right]=-\frac{1}{2\sigma^4} \]

  4. Fisher信息矩阵:

    \[I(\mu,\sigma^2) = \begin{pmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2\sigma^4} \end{pmatrix}\]


七、Kullback-Leibler(K-L)信息(K-L散度)

1. 定义

对分布族中的两个分布\(f_\theta\)\(f_{\theta'}\),K-L散度定义为:

\[D(f_\theta \parallel f_{\theta'}) = E_\theta\left[ \log \frac{f(X,\theta)}{f(X,\theta')} \right] = \int_{S} f(x,\theta) \log \frac{f(x,\theta)}{f(x,\theta')} dx \]

2. 核心性质

  • 非负性:\(D(f_\theta \parallel f_{\theta'})\geq0\),当且仅当\(f_\theta=f_{\theta'}\)几乎处处成立时等号成立(Gibbs不等式);
  • 非对称性:\(D(f_\theta \parallel f_{\theta'}) \neq D(f_{\theta'} \parallel f_\theta)\),因此是散度而非距离;
  • 与Fisher信息的联系:当\(\theta'\)趋近于\(\theta\)时,\(D(f_\theta \parallel f_{\theta'}) \approx \frac{1}{2}(\theta'-\theta)^T I(\theta) (\theta'-\theta)\),即Fisher信息是K-L散度在参数真实值处海森矩阵的1/2。

3. 意义

K-L散度衡量两个分布的差异程度,是极大似然估计、模型选择、信息论的核心工具。


八、核心知识点归纳总结

核心概念 严格定义 核心性质 关键应用与意义
C-R正则分布族 满足可识别性、对数似然二阶可导、得分函数二阶矩存在、共同支撑、积分求导可交换的分布族 保证得分函数期望为0、Fisher信息的两种定义等价 Fisher信息、C-R下界、MLE渐近性质的数学前提
得分函数 对数似然关于参数的梯度:\(S(x,\theta)=\nabla_\theta \log f(x,\theta)\) 正则条件下\(E_\theta[S(X,\theta)]=0\);n个样本的得分是单个样本的和 对数似然的变化率,Fisher信息的核心载体
单参数Fisher信息 原始定义:\(I(\theta)=E\left[\left(\frac{dL}{d\theta}\right)^2\right]=Var(S)\)
等价形式:\(I(\theta)=-E\left[\frac{d^2L}{d\theta^2}\right]\)
1. 非负性;2. 独立样本可加性;3. 充分统计量无信息损失 衡量样本关于参数的信息量,推导C-R下界,刻画估计的渐近精度
Fisher信息矩阵 元素:\(I_{ij}=E\left[\frac{\partial L}{\partial \theta_i}\frac{\partial L}{\partial \theta_j}\right]=-E\left[\frac{\partial^2 L}{\partial \theta_i\partial \theta_j}\right]\) 半正定矩阵,可识别分布族下正定;满足可加性与充分统计量无信息损失 多参数统计推断的核心,用于多参数C-R下界、Wald检验等
K-L散度 \(D(f_\theta \parallel f_{\theta'})=E_\theta\left[\log\frac{f_\theta}{f_{\theta'}}\right]\) 非负性、非对称性;二阶展开与Fisher信息关联 衡量分布差异,极大似然估计、模型选择的核心工具
充分统计量与Fisher信息 充分统计量\(T\)的Fisher信息\(I_T(\theta)=I(\theta)\) 充分统计量完全保留样本的Fisher信息,无信息损失 从信息论角度严格证明充分统计量的价值,为样本压缩提供理论依据

Fisher信息核心性质、引理与核心定理 深度讲解与完整推导

作为深耕数理统计60余年的研究者,我会从定义溯源→逐行推导→本质解读→应用意义四个维度,完整拆解这部分内容,确保每一步推导逻辑闭环,每一个概念的统计意义清晰明确。


一、前置核心概念回顾

所有推导均建立在Cramer-Rao正则分布族的基础上,先明确3个核心定义,这是所有性质的前提:

  1. 得分函数(Score Function):对分布族\(\{f(x,\theta),\theta\in\Theta\}\),对数似然\(L(\theta,x)=\log f(x,\theta)\)关于参数\(\theta\)的梯度(单参数为一阶导数),记为:

    \[S(x,\theta) = \nabla_\theta L(\theta,x) = \left( \frac{\partial L}{\partial \theta_1},\frac{\partial L}{\partial \theta_2},\dots,\frac{\partial L}{\partial \theta_k} \right)^T \]

    正则条件下,得分函数的期望恒为0\(E_\theta[S(X,\theta)] = 0\)
  2. Fisher信息矩阵:衡量样本关于未知参数\(\theta\)的信息量,定义为得分函数的方差-协方差矩阵(因期望为0,等价于得分函数外积的期望):

    \[I(\theta) = \text{Var}_\theta[S(X,\theta)] = E_\theta\left[ S(X,\theta) S(X,\theta)^T \right] \]

    其元素为\(I_{ij}(\theta) = E_\theta\left[ \frac{\partial L}{\partial \theta_i} \cdot \frac{\partial L}{\partial \theta_j} \right]\)
  3. 正则条件的核心作用:保证「积分与求导可交换次序」「分布有共同支撑(与\(\theta\)无关)」「对数似然二阶可导且矩存在」,是所有推导的数学合法性基础。

二、Fisher信息的5大核心性质 逐行讲解与证明

性质1:Fisher信息是得分函数的方差矩阵

性质内容

得分函数满足\(E_\theta[\dot{L}(\theta,X)] = E_\theta[S(X,\theta)] = 0\),且

\[I(\theta) = \text{Var}_\theta[S(X,\theta)] = E_\theta\left[S(X,\theta)S^T(X,\theta)\right] = E_\theta\left[\dot{L}(\theta,X)\dot{L}^T(\theta,X)\right] \]

详细证明(多参数通用,单参数为特例)

  1. 先证得分函数期望为0:
    对得分函数的第\(i\)个分量\(S_i(X,\theta) = \frac{\partial L(\theta,X)}{\partial \theta_i}\),取期望:

    \[\begin{align*} E_\theta\left[S_i(X,\theta)\right] &= E_\theta\left[ \frac{\partial \log f(X,\theta)}{\partial \theta_i} \right] \\ &= \int_{\mathcal{X}} \frac{\partial \log f(x,\theta)}{\partial \theta_i} \cdot f(x,\theta) d\mu(x) \\ &= \int_{\mathcal{X}} \frac{1}{f(x,\theta)} \cdot \frac{\partial f(x,\theta)}{\partial \theta_i} \cdot f(x,\theta) d\mu(x) \quad \text{(复合函数求导)} \\ &= \int_{\mathcal{X}} \frac{\partial f(x,\theta)}{\partial \theta_i} d\mu(x) \\ &= \frac{\partial}{\partial \theta_i} \int_{\mathcal{X}} f(x,\theta) d\mu(x) \quad \text{(正则条件:积分与求导可交换)} \\ &= \frac{\partial}{\partial \theta_i} 1 = 0 \quad \text{(概率密度的积分为1,导数为0)} \end{align*} \]

    因此\(E_\theta[S(X,\theta)] = 0\)对所有分量成立。

  2. 再证Fisher信息的方差形式:
    对任意随机向量,若期望为0,则其方差矩阵等于自身外积的期望:

    \[\text{Var}_\theta[S] = E_\theta\left[ (S - E[S])(S - E[S])^T \right] = E_\theta\left[ S S^T \right] \]

    结合Fisher信息的原始定义,直接得:

    \[I(\theta) = \text{Var}_\theta[S(X,\theta)] = E_\theta\left[S S^T\right] = E_\theta\left[\dot{L}\dot{L}^T\right] \]

    分量形式为\(\text{Cov}(S_i,S_j) = E_\theta[S_i S_j] = I_{ij}(\theta)\)

本质解读

得分函数是对数似然的“斜率”,在参数真实值处,斜率的平均为0;而Fisher信息是斜率的波动程度——波动越大,说明对数似然在真实值处越陡峭,参数的微小变化会带来似然的大幅变化,样本对参数的区分能力越强,信息量越大。


性质2:Fisher信息的等价计算形式(最常用)

性质内容

\[I_{ij}(\theta) = E_\theta\left[ -\frac{\partial^2 L}{\partial \theta_i \partial \theta_j} \right], \quad \text{矩阵形式:} \ I(\theta) = E_\theta\left[ -\ddot{L}(\theta,X) \right] \]

其中\(\ddot{L}\)是对数似然的海森矩阵(二阶偏导矩阵)。

详细证明

  1. 对一阶偏导再次求导,推导二阶偏导的展开式:
    已知\(\frac{\partial L}{\partial \theta_i} = \frac{1}{f} \cdot \frac{\partial f}{\partial \theta_i}\),对\(\theta_j\)再次求偏导:

    \[\begin{align*} \frac{\partial^2 L}{\partial \theta_i \partial \theta_j} &= \frac{\partial}{\partial \theta_j}\left( \frac{1}{f} \cdot \frac{\partial f}{\partial \theta_i} \right) \\ &= -\frac{1}{f^2} \cdot \frac{\partial f}{\partial \theta_j} \cdot \frac{\partial f}{\partial \theta_i} + \frac{1}{f} \cdot \frac{\partial^2 f}{\partial \theta_i \partial \theta_j} \\ &= -\left( \frac{1}{f}\frac{\partial f}{\partial \theta_i} \right)\left( \frac{1}{f}\frac{\partial f}{\partial \theta_j} \right) + \frac{1}{f} \cdot \frac{\partial^2 f}{\partial \theta_i \partial \theta_j} \\ &= -\frac{\partial L}{\partial \theta_i} \cdot \frac{\partial L}{\partial \theta_j} + \frac{1}{f} \cdot \frac{\partial^2 f}{\partial \theta_i \partial \theta_j} \end{align*} \]

  2. 等式两边取期望:

    \[E_\theta\left[ \frac{\partial^2 L}{\partial \theta_i \partial \theta_j} \right] = -E_\theta\left[ \frac{\partial L}{\partial \theta_i} \cdot \frac{\partial L}{\partial \theta_j} \right] + E_\theta\left[ \frac{1}{f} \cdot \frac{\partial^2 f}{\partial \theta_i \partial \theta_j} \right] \]

  3. 化简第二项:

    \[\begin{align*} E_\theta\left[ \frac{1}{f} \cdot \frac{\partial^2 f}{\partial \theta_i \partial \theta_j} \right] &= \int_{\mathcal{X}} \frac{1}{f} \cdot \frac{\partial^2 f}{\partial \theta_i \partial \theta_j} \cdot f d\mu(x) \\ &= \int_{\mathcal{X}} \frac{\partial^2 f}{\partial \theta_i \partial \theta_j} d\mu(x) \\ &= \frac{\partial^2}{\partial \theta_i \partial \theta_j} \int_{\mathcal{X}} f d\mu(x) \quad \text{(正则条件:积分与求导交换)} \\ &= \frac{\partial^2}{\partial \theta_i \partial \theta_j} 1 = 0 \end{align*} \]

  4. 整理得最终结果:

    \[E_\theta\left[ \frac{\partial^2 L}{\partial \theta_i \partial \theta_j} \right] = -I_{ij}(\theta) \implies I_{ij}(\theta) = E_\theta\left[ -\frac{\partial^2 L}{\partial \theta_i \partial \theta_j} \right] \]

本质解读与应用价值

这个形式是实际计算Fisher信息的首选:无需计算乘积的期望,仅需计算对数似然的二阶导数再取期望,大幅简化计算。

  • 例:正态分布\(N(\theta,1)\),对数似然二阶导数为\(-1\),因此\(I(\theta) = -E[-1] = 1\),一步即可算出。

性质3:独立样本的Fisher信息具有可加性

性质内容

\(X_1,X_2,\dots,X_n\)相互独立,\(X=(X_1,\dots,X_n)^T\)为全样本,则全样本的Fisher信息等于各样本Fisher信息之和:

\[I_X(\theta) = \sum_{i=1}^n I_{X_i}(\theta) \]

特别地,若\(X_1,\dots,X_n\)独立同分布(i.i.d.),则\(I_X(\theta) = n \cdot I_{X_1}(\theta)\)(单个样本信息的n倍)。

详细证明

  1. 独立样本的联合密度为各边缘密度的乘积:

    \[f(x,\theta) = \prod_{i=1}^n f(x_i,\theta) \]

    取对数得全样本对数似然:

    \[L(\theta,X) = \sum_{i=1}^n L(\theta,X_i) \]

    其中\(L(\theta,X_i)\)是单个样本\(X_i\)的对数似然。

  2. \(\theta\)求导,得全样本得分函数:

    \[S_X(X,\theta) = \frac{\partial L}{\partial \theta} = \sum_{i=1}^n \frac{\partial L(\theta,X_i)}{\partial \theta} = \sum_{i=1}^n S_{X_i}(X_i,\theta) \]

    即全样本得分函数 = 单个样本得分函数的和。

  3. 计算全样本Fisher信息(得分函数的方差):
    \(X_1,\dots,X_n\)相互独立,故\(S_{X_1},\dots,S_{X_n}\)也相互独立,独立随机变量和的方差等于方差之和:

    \[\begin{align*} I_X(\theta) &= \text{Var}_\theta\left[ \sum_{i=1}^n S_{X_i} \right] \\ &= \sum_{i=1}^n \text{Var}_\theta[S_{X_i}] + 2\sum_{1\leq i<j\leq n} \text{Cov}(S_{X_i},S_{X_j}) \end{align*} \]

    对独立变量,\(\text{Cov}(S_{X_i},S_{X_j}) = E[S_{X_i}]E[S_{X_j}] = 0\times0=0\),因此交叉项全为0,得:

    \[I_X(\theta) = \sum_{i=1}^n I_{X_i}(\theta) \]

    若i.i.d.,则每个\(I_{X_i}(\theta)=I_{X_1}(\theta)\),因此\(I_X(\theta)=nI_{X_1}(\theta)\)

本质解读

完美符合统计直觉:样本量越大,关于参数的总信息量越多,且信息量随样本量线性增长。这也是为什么大样本下参数估计精度会提升——信息量增加,估计的方差下界会降低。


性质4:统计量的Fisher信息与辅助统计量、充分统计量的关联

设统计量\(T=T(X)\)的分布族为\(\{g(t,\theta),\theta\in\Theta\}\),其Fisher信息记为\(I_T(\theta)\),有两个核心结论:

结论①:\(I_T(\theta)=0\)的充要条件是\(T(X)\)为辅助统计量

详细证明
  • 先明确:辅助统计量的定义是「统计量的分布与未知参数\(\theta\)完全无关」,即\(g(t,\theta)\)\(\theta\)无关。
  • 由性质1,\(I_T(\theta) = \text{Var}_\theta\left[ \frac{\partial \log g(T,\theta)}{\partial \theta} \right]\),方差具有非负性,因此:

    \[\begin{align*} I_T(\theta) = 0 &\iff \text{Var}_\theta\left[ \frac{\partial \log g(T,\theta)}{\partial \theta} \right] = 0 \\ &\iff \frac{\partial \log g(t,\theta)}{\partial \theta} = 0 \quad \text{几乎处处成立} \\ &\iff \log g(t,\theta) = c(t) \quad \text{($c(t)$与$\theta$无关)} \\ &\iff g(t,\theta) = e^{c(t)} \quad \text{(密度与$\theta$无关)} \\ &\iff T(X) \text{为辅助统计量} \end{align*} \]

本质解读

Fisher信息衡量统计量关于参数的信息量,\(I_T(\theta)=0\)说明\(T\)完全不包含\(\theta\)的任何信息,这正是辅助统计量的定义。这个结论从信息论角度给辅助统计量做了严格的数学刻画。


结论②:若\(T(X)\)为充分统计量,则\(I_T(\theta) = I_X(\theta)\)

详细证明
  1. 因子分解定理\(T\)是充分统计量的充要条件是样本联合密度可分解为:

    \[f(x,\theta) = g(T(x),\theta) \cdot h(x) \]

    其中\(g(t,\theta)\)\(T\)的密度,\(h(x)\)\(\theta\)完全无关。

  2. 两边取对数得:

    \[\log f(x,\theta) = \log g(T(x),\theta) + \log h(x) \]

  3. \(\theta\)求偏导,\(\log h(x)\)\(\theta\)无关,导数为0,因此:

    \[\frac{\partial \log f(x,\theta)}{\partial \theta} = \frac{\partial \log g(T(x),\theta)}{\partial \theta} \]

    样本的得分函数 = 统计量\(T\)的得分函数\(S_X(X,\theta) = S_T(T,\theta)\)

  4. 两边取方差,得:

    \[\text{Var}_\theta[S_X] = \text{Var}_\theta[S_T] \implies I_X(\theta) = I_T(\theta) \]

本质解读

这是充分统计量的核心信息论意义:充分统计量完全保留了样本中关于参数的所有信息,没有任何信息损失。用充分统计量代替原始样本做统计推断,不会丢失任何关于参数的信息,这也是充分统计量的核心价值。


性质5:参数变换下的Fisher信息公式

性质内容

\(\theta = \theta(\varphi)\)为参数变换,\(\varphi\)\(q\)维参数,\(\theta\)\(k\)维参数,则关于新参数\(\varphi\)的Fisher信息矩阵为:

\[I(\varphi) = \left( \frac{\partial \theta}{\partial \varphi^T} \right)^T I(\theta) \left( \frac{\partial \theta}{\partial \varphi^T} \right) \]

其中\(\frac{\partial \theta}{\partial \varphi^T} = \left( \frac{\partial \theta_i}{\partial \varphi_j} \right)_{k\times q}\)是参数变换的雅可比矩阵。
分量形式为:

\[I_{ab}(\varphi) = \sum_{i=1}^k \sum_{j=1}^k I_{ij}(\theta) \cdot \frac{\partial \theta_i}{\partial \varphi_a} \cdot \frac{\partial \theta_j}{\partial \varphi_b} \]

详细证明

  1. 多元函数链式求导法则,对数似然对新参数\(\varphi_a\)的偏导为:

    \[\frac{\partial L}{\partial \varphi_a} = \sum_{i=1}^k \frac{\partial L}{\partial \theta_i} \cdot \frac{\partial \theta_i}{\partial \varphi_a} \]

  2. 代入Fisher信息的定义,\(I_{ab}(\varphi) = E_\theta\left[ \frac{\partial L}{\partial \varphi_a} \cdot \frac{\partial L}{\partial \varphi_b} \right]\),展开得:

    \[\begin{align*} I_{ab}(\varphi) &= E_\theta\left[ \left( \sum_{i=1}^k \frac{\partial L}{\partial \theta_i} \frac{\partial \theta_i}{\partial \varphi_a} \right) \left( \sum_{j=1}^k \frac{\partial L}{\partial \theta_j} \frac{\partial \theta_j}{\partial \varphi_b} \right) \right] \\ &= \sum_{i=1}^k \sum_{j=1}^k E_\theta\left[ \frac{\partial L}{\partial \theta_i} \cdot \frac{\partial L}{\partial \theta_j} \right] \cdot \frac{\partial \theta_i}{\partial \varphi_a} \cdot \frac{\partial \theta_j}{\partial \varphi_b} \\ &= \sum_{i=1}^k \sum_{j=1}^k I_{ij}(\theta) \cdot \frac{\partial \theta_i}{\partial \varphi_a} \cdot \frac{\partial \theta_j}{\partial \varphi_b} \end{align*} \]

  3. 将分量形式写成矩阵乘法,即得:

    \[I(\varphi) = J^T I(\theta) J, \quad J = \frac{\partial \theta}{\partial \varphi^T} \]

本质解读与应用

这个公式解决了「参数变换后,Fisher信息如何变化」的问题,是参数估计、假设检验中处理参数变换的核心工具。

  • 例:正态分布\(N(\mu,\sigma^2)\),原参数\(\theta=(\mu,\sigma^2)\)的Fisher信息矩阵为\(\text{diag}(1/\sigma^2, 1/(2\sigma^4))\);若变换为\(\varphi=(\mu,\sigma)\)(标准差),则雅可比矩阵\(J=\text{diag}(1,2\sigma)\),代入公式得\(I(\varphi)=\text{diag}(1/\sigma^2, 2/\sigma^2)\),一步即可算出新参数的Fisher信息。

三、前置铺垫:条件期望的测度论等价定义

要证明核心引理与定理,需要先明确一般条件期望的等价定义,这是比初等条件期望更通用的形式,适用于任意随机变量:

定义

\(X \sim (\mathcal{X},\mathcal{B}_X,P^X)\)\(T=T(X)\)为统计量,其导出测度为\(P^T(B) = P^X(T^{-1}(B))\)(即\(T\)落在集合\(B\)的概率,等于\(X\)落在\(T^{-1}(B)\)的概率)。
对可测函数\(\varphi(x)\),其条件期望\(E[\varphi(X)|T=t]\)定义为满足以下积分等式的\(T\)的可测函数\(m(t)\)

\[\int_B m(t) dP^T(t) = \int_{T^{-1}(B)} \varphi(x) dP^X(x), \quad \forall B \in \mathcal{B}_T \]

核心说明

  1. \(B\)取整个样本空间时,该式退化为全期望公式\(E[m(T)] = E[\varphi(X)]\),因此这个定义是全期望公式的推广;
  2. 条件概率、条件分布都可以通过这个定义衍生:\(P(A|T=t) = E[I_A(X)|T=t]\),其中\(I_A\)是事件\(A\)的示性函数。

四、核心引理2.3.1:得分函数的条件期望性质

引理内容

对正则分布族,统计量\(T=T(X)\)的得分函数,等于样本得分函数在给定\(T\)下的条件期望:

\[\frac{\partial \log g(t,\theta)}{\partial \theta} = E_\theta\left[ \frac{\partial \log f(X,\theta)}{\partial \theta} \bigg| T(X)=t \right] \]

简记为:\(S_T(T,\theta) = E_\theta\left[ S_X(X,\theta) \big| T \right]\)

详细证明

我们用条件期望的等价定义来证明,核心是证明等式两边满足条件期望的积分等式。

  1. 记:

    \[m(t) = \frac{\partial \log g(t,\theta)}{\partial \theta}, \quad \varphi(x) = \frac{\partial \log f(x,\theta)}{\partial \theta} \]

    我们需要证明:对任意可测集\(B\),有

    \[\int_B m(t) dP^T_\theta(t) = \int_{T^{-1}(B)} \varphi(x) dP^X_\theta(x) \tag{2.3.6} \]

  2. 对等式左边变形:

    \[\begin{align*} \int_B m(t) dP^T_\theta(t) &= \int_B \frac{\partial \log g(t,\theta)}{\partial \theta} \cdot g(t,\theta) d\mu(t) \\ &= \int_B \frac{1}{g(t,\theta)} \cdot \frac{\partial g(t,\theta)}{\partial \theta} \cdot g(t,\theta) d\mu(t) \\ &= \int_B \frac{\partial g(t,\theta)}{\partial \theta} d\mu(t) \\ &= \frac{\partial}{\partial \theta} \int_B g(t,\theta) d\mu(t) \quad \text{(正则条件:积分与求导交换)} \\ &= \frac{\partial}{\partial \theta} P^T_\theta(B) \end{align*} \]

  3. 对等式右边变形:

    \[\begin{align*} \int_{T^{-1}(B)} \varphi(x) dP^X_\theta(x) &= \int_{T^{-1}(B)} \frac{\partial \log f(x,\theta)}{\partial \theta} \cdot f(x,\theta) d\mu(x) \\ &= \int_{T^{-1}(B)} \frac{\partial f(x,\theta)}{\partial \theta} d\mu(x) \\ &= \frac{\partial}{\partial \theta} \int_{T^{-1}(B)} f(x,\theta) d\mu(x) \quad \text{(正则条件:积分与求导交换)} \\ &= \frac{\partial}{\partial \theta} P^X_\theta(T^{-1}(B)) \end{align*} \]

  4. 由导出测度的定义,\(P^T_\theta(B) = P^X_\theta(T^{-1}(B))\),因此两边对\(\theta\)的导数也相等,即式(2.3.6)成立。

  5. 由条件期望的等价定义,\(m(t) = E_\theta[\varphi(X)|T=t]\),即引理得证。

本质解读

这个引理是连接样本信息与统计量信息的桥梁:统计量\(T\)的得分函数,是样本得分函数在\(T\)上的“条件平均”,也就是样本得分函数中能被\(T\)解释的部分。这个引理是证明核心定理2.3.1的关键。


五、核心定理2.3.1:Fisher信息与充分统计量的充要条件

这个定理是Fisher信息理论的核心,完整揭示了充分统计量与信息损失的内在联系。

定理内容

\(X \sim \{f(x,\theta),\theta\in\Theta\}\)\(T=T(X) \sim \{g(t,\theta),\theta\in\Theta\}\)均为正则分布族,则:

  1. 信息损失公式:样本与统计量\(T\)的Fisher信息之差(即使用\(T\)代替样本的信息损失)为:

    \[\begin{align*} I_X(\theta) - I_T(\theta) &= E_\theta\left\{ \text{Var}_\theta\left[ S_X(X,\theta) \bigg| T \right] \right\} \\ &= \text{Var}_\theta\left[ S_X(X,\theta) - S_T(T,\theta) \right] \\ &= E_\theta\left[ (S_X - S_T)(S_X - S_T)^T \right] \end{align*} \]

  2. 信息不等式与充要条件\(I_X(\theta) \geq I_T(\theta)\),且等号成立的充要条件\(T(X)\)\(\theta\)的充分统计量。

详细证明

证明(1):信息损失公式

我们分两步证明,先证第一式,再证第二、三式。

第一步:证明\(I_X(\theta) - I_T(\theta) = E_\theta\left[ \text{Var}_\theta(S_X|T) \right]\)

核心工具是全方差公式:对任意随机变量\(X\)\(T\),有

\[\text{Var}(X) = E\left[ \text{Var}(X|T) \right] + \text{Var}\left( E[X|T] \right) \]

即总方差 = 条件方差的期望 + 条件期望的方差。

对得分函数\(S_X\)应用全方差公式:

\[\text{Var}_\theta(S_X) = E_\theta\left[ \text{Var}_\theta(S_X|T) \right] + \text{Var}_\theta\left( E_\theta[S_X|T] \right) \]

  • 左边:\(\text{Var}_\theta(S_X) = I_X(\theta)\)(Fisher信息的定义);
  • 右边第二项:由引理2.3.1,\(E_\theta[S_X|T] = S_T\),因此\(\text{Var}_\theta\left( E_\theta[S_X|T] \right) = \text{Var}_\theta(S_T) = I_T(\theta)\)

代入全方差公式,移项得:

\[I_X(\theta) - I_T(\theta) = E_\theta\left[ \text{Var}_\theta(S_X|T) \right] \]

第一式得证。


第二步:证明\(I_X(\theta) - I_T(\theta) = E_\theta\left[ (S_X - S_T)(S_X - S_T)^T \right]\)

将外积展开:

\[\begin{align*} E_\theta\left[ (S_X - S_T)(S_X - S_T)^T \right] &= E_\theta\left[ S_X S_X^T - S_X S_T^T - S_T S_X^T + S_T S_T^T \right] \\ &= E_\theta[S_X S_X^T] - E_\theta[S_X S_T^T] - E_\theta[S_T S_X^T] + E_\theta[S_T S_T^T] \\ &= I_X(\theta) + I_T(\theta) - E_\theta[S_X S_T^T] - E_\theta[S_T S_X^T] \end{align*} \]

现在计算交叉项\(E_\theta[S_X S_T^T]\),用全期望公式

\[\begin{align*} E_\theta[S_X S_T^T] &= E_\theta\left[ E_\theta\left[ S_X S_T^T \bigg| T \right] \right] \\ &= E_\theta\left[ S_T^T \cdot E_\theta\left[ S_X \bigg| T \right] \right] \quad \text{(给定$T$时,$S_T$是常数,可提出期望)} \\ &= E_\theta\left[ S_T^T \cdot S_T \right] \quad \text{(引理2.3.1:$E[S_X|T]=S_T$)} \\ &= I_T(\theta) \end{align*} \]

同理,\(E_\theta[S_T S_X^T] = I_T(\theta)\),代入展开式:

\[E_\theta\left[ (S_X - S_T)(S_X - S_T)^T \right] = I_X(\theta) + I_T(\theta) - I_T(\theta) - I_T(\theta) = I_X(\theta) - I_T(\theta) \]

又因为\(E[S_X - S_T] = E[S_X] - E[S_T] = 0 - 0 = 0\),因此:

\[E_\theta\left[ (S_X - S_T)(S_X - S_T)^T \right] = \text{Var}_\theta(S_X - S_T) \]

第二、三式得证。


证明(2):信息不等式与充要条件

第一步:证明\(I_X(\theta) \geq I_T(\theta)\)

由(1)的第一式,\(I_X(\theta) - I_T(\theta) = E_\theta\left[ \text{Var}_\theta(S_X|T) \right]\)
方差具有非负性:\(\text{Var}_\theta(S_X|T) \geq 0\) 几乎处处成立,因此其期望也非负,即:

\[I_X(\theta) - I_T(\theta) \geq 0 \implies I_X(\theta) \geq I_T(\theta) \]

第二步:证明等号成立的充要条件
  • 充分性:若\(T\)是充分统计量,由性质4的结论②,直接得\(I_T(\theta)=I_X(\theta)\),等号成立。

  • 必要性:若\(I_X(\theta)=I_T(\theta)\),则\(E_\theta\left[ \text{Var}_\theta(S_X|T) \right] = 0\)
    非负随机变量的期望为0,当且仅当该随机变量几乎处处为0,即:

    \[\text{Var}_\theta(S_X|T) = 0 \quad \text{几乎处处成立} \]

    方差为0的随机变量几乎处处等于其期望,因此:

    \[S_X = E_\theta[S_X|T] = S_T \quad \text{几乎处处成立} \]

    \(\frac{\partial \log f(x,\theta)}{\partial \theta} = \frac{\partial \log g(T(x),\theta)}{\partial \theta}\)

    两边对\(\theta\)积分,得:

    \[\log f(x,\theta) = \log g(T(x),\theta) + c(x) \]

    其中\(c(x)\)是与\(\theta\)无关的积分常数。

    两边取指数,得:

    \[f(x,\theta) = g(T(x),\theta) \cdot e^{c(x)} \]

    因子分解定理\(T(X)\)\(\theta\)的充分统计量。

    必要性得证。


定理的核心意义

  1. 从数学上严格证明了:任何统计量都不会增加关于参数的信息,最多只能保留全部信息
  2. 给出了充分统计量的信息论充要条件:一个统计量是充分统计量,当且仅当它完全保留了样本的Fisher信息,无任何信息损失;
  3. 量化了信息损失:信息损失等于样本得分函数在给定统计量下的条件方差的期望,条件方差越大,信息损失越多。

六、核心知识点归纳总结表

核心概念/定理 核心内容 关键推导依据 统计意义与核心应用
性质1:Fisher信息的方差形式 \(I(\theta)=\text{Var}_\theta[S(X,\theta)]=E_\theta[SS^T]\),正则条件下\(E[S]=0\) 概率密度积分=1、正则条件(积分与求导交换) 定义Fisher信息的本质,刻画对数似然的波动程度
性质2:Fisher信息的等价形式 \(I(\theta)=E_\theta[-\ddot{L}(\theta,X)]\) 二阶偏导展开、正则条件(积分与求导交换) 实际计算Fisher信息的首选公式,大幅简化计算
性质3:独立样本信息可加性 独立样本总信息=各样本信息和;i.i.d.样本总信息=\(nI_{X_1}(\theta)\) 独立变量和的方差=方差和、得分函数可加性 解释大样本下估计精度提升的本质,样本量越大信息量越多
性质4-①:辅助统计量的信息刻画 \(I_T(\theta)=0 \iff T\)是辅助统计量 方差为0的等价条件、辅助统计量定义 从信息论角度严格定义辅助统计量:完全不含参数信息
性质4-②:充分统计量的无信息损失 \(T\)是充分统计量 \(\implies I_T(\theta)=I_X(\theta)\) 因子分解定理、得分函数的等价性 证明充分统计量的核心价值:完全保留样本的参数信息
性质5:参数变换的信息公式 \(I(\varphi)=J^T I(\theta) J\)\(J\)为参数变换的雅可比矩阵 多元函数链式求导法则、Fisher信息定义 处理参数变换后的信息计算,是参数估计、检验的核心工具
引理2.3.1:得分函数的条件期望 \(S_T(T,\theta)=E_\theta[S_X(X,\theta)|T]\) 条件期望的测度论定义、导出测度的性质 连接样本信息与统计量信息的桥梁,是核心定理的证明基础
定理2.3.1:信息不等式与充要条件 1. \(I_X(\theta) \geq I_T(\theta)\)
2. 等号成立\(\iff T\)是充分统计量;
3. 信息损失=\(E[\text{Var}(S_X|T)]\)
全方差公式、引理2.3.1、因子分解定理 完整揭示Fisher信息与充分统计量的内在联系,是数理统计的核心定理之一

Fisher信息经典例题 详细讲解与推导

本次内容将通过5个核心例题,完整覆盖Fisher信息的计算方法、核心性质应用,包括单/多参数Fisher信息、独立样本可加性、参数变换公式、位置尺度分布族与指数族的通用信息结构,这些是参数估计、假设检验的核心理论基础。


例2.3.1 正态分布的Fisher信息

题目

\(X \sim N(\mu,\sigma^2)\),求:

  1. 单个样本关于\(\theta=(\mu,\sigma^2)\)的Fisher信息;
  2. n个i.i.d.样本的Fisher信息;
  3. 参数变换为\(\theta'=(\mu,\sigma)\)后的Fisher信息。

详细推导过程

步骤1:写出对数似然函数

正态分布的概率密度为:

\[f(x,\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma^2} \right\} \]

取对数得对数似然:

\[L(\mu,\sigma^2) = -\frac{1}{2}\log(2\pi) - \frac{1}{2}\log(\sigma^2) - \frac{(x-\mu)^2}{2\sigma^2} \]

步骤2:求一阶偏导(得分函数分量)

  • 对均值\(\mu\)求偏导:

    \[\frac{\partial L}{\partial \mu} = \frac{x-\mu}{\sigma^2} \]

  • 对方差\(\sigma^2\)求偏导(将\(\sigma^2\)视为整体参数):

    \[\frac{\partial L}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x-\mu)^2}{2\sigma^4} \]

步骤3:计算Fisher信息矩阵

Fisher信息矩阵的元素为\(I_{ij} = \text{Cov}\left( \frac{\partial L}{\partial \theta_i}, \frac{\partial L}{\partial \theta_j} \right)\)(得分函数期望为0,协方差等于乘积的期望)。

  1. \(I_{11} = \text{Var}\left( \frac{\partial L}{\partial \mu} \right)\)
    已知\(X-\mu \sim N(0,\sigma^2)\),因此:

    \[\text{Var}\left( \frac{x-\mu}{\sigma^2} \right) = \frac{1}{\sigma^4} \cdot \text{Var}(X-\mu) = \frac{1}{\sigma^2} \]

  2. \(I_{22} = \text{Var}\left( \frac{\partial L}{\partial \sigma^2} \right)\)
    化简得分函数:\(\frac{\partial L}{\partial \sigma^2} = \frac{1}{2\sigma^4}\left[ (x-\mu)^2 - \sigma^2 \right]\)
    \(\frac{(X-\mu)^2}{\sigma^2} \sim \chi^2(1)\),其方差为2,故\(\text{Var}[(X-\mu)^2] = 2\sigma^4\),因此:

    \[\text{Var}\left( \frac{\partial L}{\partial \sigma^2} \right) = \frac{1}{4\sigma^8} \cdot 2\sigma^4 = \frac{1}{2\sigma^4} \]

  3. \(I_{12}=I_{21} = \text{Cov}\left( \frac{\partial L}{\partial \mu}, \frac{\partial L}{\partial \sigma^2} \right)\)
    正态分布奇数阶中心矩为0,\(E[(X-\mu)^3]=0\),因此协方差为0。

最终单个样本关于\(\theta=(\mu,\sigma^2)\)的Fisher信息矩阵为:

\[I(\mu,\sigma^2) = \begin{pmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2\sigma^4} \end{pmatrix}\]

步骤4:n个i.i.d.样本的Fisher信息

根据Fisher信息的可加性,独立样本总信息为单个样本的n倍:

\[I_X(\mu,\sigma^2) = n \cdot I(\mu,\sigma^2) = \begin{pmatrix} \frac{n}{\sigma^2} & 0 \\ 0 & \frac{n}{2\sigma^4} \end{pmatrix}\]

步骤5:参数变换\(\theta'=(\mu,\sigma)\)的Fisher信息

方法1:直接计算
\(\sigma\)求偏导:

\[\frac{\partial L}{\partial \sigma} = -\frac{1}{\sigma} + \frac{(x-\mu)^2}{\sigma^3} \]

计算方差:

\[\text{Var}\left( \frac{\partial L}{\partial \sigma} \right) = \frac{1}{\sigma^6} \cdot \text{Var}[(X-\mu)^2] = \frac{2}{\sigma^2} \]

因此n个样本的信息矩阵为:

\[I_X(\mu,\sigma) = \begin{pmatrix} \frac{n}{\sigma^2} & 0 \\ 0 & \frac{2n}{\sigma^2} \end{pmatrix}\]

方法2:参数变换公式验证
雅可比矩阵\(J = \frac{\partial \theta}{\partial \theta'^T} = \begin{pmatrix} 1 & 0 \\ 0 & 2\sigma \end{pmatrix}\),代入变换公式\(I(\theta')=J^T I(\theta) J\),结果与直接计算完全一致。

核心要点

  1. 正态分布的Fisher信息矩阵为对角矩阵,\(\mu\)\(\sigma^2\)是正交参数,信息无交叉;
  2. 均值的Fisher信息与\(\sigma^2\)成反比,方差越大,样本关于均值的信息量越少;
  3. 参数变换会改变Fisher信息的数值,需通过变换公式或重新计算得到。

例2.3.2 伯努利分布的Fisher信息

题目

\(X \sim b(1,\theta)\)(0-1分布),求单个样本、n个i.i.d.样本、二项分布\(X\sim b(n,\theta)\)关于\(\theta\)的Fisher信息。

详细推导过程

步骤1:写出对数似然函数

伯努利分布的概率质量函数为:

\[f(x,\theta) = \theta^x (1-\theta)^{1-x}, \quad x=0,1 \]

取对数得:

\[L(\theta,x) = x\log\theta + (1-x)\log(1-\theta) \]

步骤2:求得分函数

\[\frac{\partial L}{\partial \theta} = \frac{x}{\theta} - \frac{1-x}{1-\theta} = \frac{x - \theta}{\theta(1-\theta)} \]

步骤3:计算Fisher信息

伯努利分布的方差\(\text{Var}(X)=\theta(1-\theta)\),因此:

\[I(\theta) = \text{Var}\left( \frac{\partial L}{\partial \theta} \right) = \frac{1}{[\theta(1-\theta)]^2} \cdot \theta(1-\theta) = \frac{1}{\theta(1-\theta)} \]

步骤4:n个样本与二项分布的Fisher信息

  • n个i.i.d.伯努利样本:由可加性,\(I_X(\theta) = \frac{n}{\theta(1-\theta)}\)
  • 二项分布\(X\sim b(n,\theta)\):其对数似然与n个伯努利样本仅差一个与\(\theta\)无关的常数项,得分函数与方差计算结果完全一致,因此\(I(\theta) = \frac{n}{\theta(1-\theta)}\)

核心要点

  1. 伯努利分布的Fisher信息在\(\theta=0.5\)时取得最小值,\(\theta\to0\)\(\theta\to1\)时趋于无穷大,符合“极端概率下样本信息量更高”的直觉;
  2. 二项分布与n个伯努利样本的Fisher信息完全一致,因为样本和是充分统计量,保留了全部参数信息。

例2.3.3 位置尺度参数分布族的Fisher信息

题目

\(X\)服从位置尺度分布族:\(X \sim \frac{1}{\sigma}f\left( \frac{x-\mu}{\sigma} \right)\)\(\theta=(\mu,\sigma)\),证明:

  1. \(\sigma\)已知,则\(I_X(\mu)=a\)(与参数无关的常数);
  2. \(\mu\)已知,则\(I_X(\sigma)=\sigma^{-2}b\)\(b\)为与参数无关的常数);
  3. \(\mu,\sigma\)均未知,则\(I_X(\mu,\sigma)=\sigma^{-2}A\)\(A\)为与参数无关的常数矩阵)。

详细推导过程

步骤1:标准化变换

\(Y = \frac{X-\mu}{\sigma}\),则\(Y\)的概率密度为\(f(y)\),与\(\mu,\sigma\)完全无关,其各阶矩均为常数。

步骤2:写出对数似然与偏导

\(X\)的对数似然为:

\[L(\mu,\sigma,x) = \log f(y) - \log\sigma, \quad y=\frac{x-\mu}{\sigma} \]

求一阶偏导:

  • \(\mu\)求偏导:\(\frac{\partial L}{\partial \mu} = -\frac{1}{\sigma} \cdot \frac{f'(y)}{f(y)} = \frac{1}{\sigma} u(y)\)\(u(y)\)仅与\(y\)有关;
  • \(\sigma\)求偏导:\(\frac{\partial L}{\partial \sigma} = \frac{1}{\sigma} \left( y \cdot \frac{f'(y)}{f(y)} + 1 \right) = \frac{1}{\sigma} v(y)\)\(v(y)\)仅与\(y\)有关。

步骤3:分情况证明

  1. \(\sigma\)已知时:

    \[I(\mu) = \text{Var}\left( \frac{1}{\sigma}u(y) \right) = \frac{1}{\sigma^2}\text{Var}(u(Y)) \]

    \(\sigma\)已知时,该值为与参数无关的常数\(a\),得证。

  2. \(\mu\)已知时:

    \[I(\sigma) = \text{Var}\left( \frac{1}{\sigma}v(y) \right) = \frac{1}{\sigma^2}\text{Var}(v(Y)) = \sigma^{-2}b \]

    其中\(b=\text{Var}(v(Y))\)为常数,得证。

  3. \(\mu,\sigma\)均未知时:
    Fisher信息矩阵的元素均为\(\frac{1}{\sigma^2}\)乘以与参数无关的方差/协方差,因此可写为\(I(\mu,\sigma)=\sigma^{-2}A\)\(A\)为常数矩阵,得证。

核心要点

  1. 该结论是位置尺度分布族的通用性质,正态分布、拉普拉斯分布、柯西分布等均满足该结构;
  2. 位置/尺度参数的Fisher信息均与\(\sigma^2\)成反比,是该分布族的固有特征;
  3. 标准化变换是处理位置尺度分布的核心技巧,可大幅简化计算。

例2.3.4 多元正态分布的Fisher信息

题目

\(Y \sim N(\theta, I_n)\)\(I_n\)为n阶单位矩阵),求:

  1. \(Y\)关于\(\theta\)的Fisher信息矩阵;
  2. \(\theta = g(\beta)\),求\(Y\)关于\(\beta\)的Fisher信息矩阵。

详细推导过程

(1) 关于\(\theta\)的Fisher信息矩阵

多元正态分布的对数似然为:

\[L(\theta,y) = -\frac{n}{2}\log(2\pi) - \frac{1}{2}\sum_{i=1}^n (y_i - \theta_i)^2 \]

求一阶偏导:

\[\frac{\partial L}{\partial \theta_i} = y_i - \theta_i \]

Fisher信息矩阵的元素:

\[I_{ij} = E\left[ (Y_i-\theta_i)(Y_j-\theta_j) \right] = \text{Cov}(Y_i,Y_j) = \begin{cases} 1, & i=j \\ 0, & i\neq j \end{cases}\]

因此\(I(\theta) = I_n\)(n阶单位矩阵)。

(2) 参数变换后的Fisher信息矩阵

记雅可比矩阵\(G = \frac{\partial g(\beta)}{\partial \beta^T} = \frac{\partial \theta}{\partial \beta^T}\),根据参数变换公式:

\[I(\beta) = \left( \frac{\partial \theta}{\partial \beta^T} \right)^T I(\theta) \left( \frac{\partial \theta}{\partial \beta^T} \right) = G^T I_n G = G^T G \]

核心要点

  1. 标准多元正态分布的Fisher信息矩阵为单位矩阵,各分量的信息相互独立;
  2. 该结果是非线性回归、广义线性模型参数估计的核心基础。

例2.3.5 指数族分布的Fisher信息

题目

设自然指数族分布为\(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\}\),求:

  1. \(X\)关于自然参数\(\theta\)的Fisher信息矩阵;
  2. \(\eta = E_\theta[T(X)]\),求\(X\)关于均值参数\(\eta\)的Fisher信息矩阵。

详细推导过程

首先回顾指数族核心性质:

  • \(E_\theta[T(X)] = \dot{b}(\theta)\)\(b(\theta)\)的梯度);
  • \(\text{Cov}_\theta(T(X)) = \ddot{b}(\theta)\)\(b(\theta)\)的海森矩阵)。

(1) 关于自然参数\(\theta\)的Fisher信息

对数似然为:

\[L(\theta,x) = \theta^T T(x) - b(\theta) + \log h(x) \]

求一阶偏导:

\[\frac{\partial L}{\partial \theta_i} = T_i(x) - \frac{\partial b(\theta)}{\partial \theta_i} = T_i(x) - E[T_i(X)] \]

Fisher信息矩阵的元素:

\[I_{ij} = E\left[ (T_i-E[T_i])(T_j-E[T_j]) \right] = \text{Cov}(T_i,T_j) = \frac{\partial^2 b(\theta)}{\partial \theta_i \partial \theta_j} \]

因此\(I(\theta) = \ddot{b}(\theta) = \text{Var}_\theta(T(X))\)

(2) 关于均值参数\(\eta\)的Fisher信息

参数变换关系:\(\eta = \dot{b}(\theta)\),雅可比矩阵为:

\[\frac{\partial \eta}{\partial \theta^T} = \ddot{b}(\theta) = I(\theta), \quad \frac{\partial \theta}{\partial \eta^T} = [\ddot{b}(\theta)]^{-1} \]

代入变换公式:

\[I(\eta) = [\ddot{b}(\theta)]^{-1} \cdot \ddot{b}(\theta) \cdot [\ddot{b}(\theta)]^{-1} = [\ddot{b}(\theta)]^{-1} \]

核心要点

  1. 自然指数族的Fisher信息矩阵,就是对数归一化函数\(b(\theta)\)的海森矩阵,无需重复求导取期望,计算极简便;
  2. 均值参数与自然参数的Fisher信息矩阵互为逆矩阵,是广义线性模型的核心理论基础;
  3. 正态、伯努利、泊松、伽马等绝大多数常见分布均属于指数族,该结论通用性极强。

经典分布Fisher信息汇总表

分布类型 待估参数 单个样本Fisher信息 n个i.i.d.样本Fisher信息 核心特征
正态分布\(N(\mu,\sigma^2)\) \(\theta=(\mu,\sigma^2)\) \(\begin{pmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2\sigma^4} \end{pmatrix}\) \(\begin{pmatrix} \frac{n}{\sigma^2} & 0 \\ 0 & \frac{n}{2\sigma^4} \end{pmatrix}\) 参数正交,信息矩阵对角;均值信息与\(\sigma^2\)成反比
正态分布\(N(\mu,\sigma^2)\) \(\theta'=(\mu,\sigma)\) \(\begin{pmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{2}{\sigma^2} \end{pmatrix}\) \(\begin{pmatrix} \frac{n}{\sigma^2} & 0 \\ 0 & \frac{2n}{\sigma^2} \end{pmatrix}\) 尺度参数变换后信息数值改变,仍保持正交
伯努利分布\(b(1,\theta)\) 成功概率\(\theta\) \(\frac{1}{\theta(1-\theta)}\) \(\frac{n}{\theta(1-\theta)}\) \(\theta=0.5\)时信息最小,\(\theta\to0/1\)时信息趋于无穷
二项分布\(b(n,\theta)\) 成功概率\(\theta\) \(\frac{n}{\theta(1-\theta)}\) - 与n个伯努利样本信息量一致,充分统计量无信息损失
位置尺度分布族\(\frac{1}{\sigma}f(\frac{x-\mu}{\sigma})\) \(\theta=(\mu,\sigma)\) \(\sigma^{-2}A\)\(A\)为常数矩阵) \(n\sigma^{-2}A\) 信息矩阵与\(\sigma^2\)成反比,标准化变换可简化计算
多元正态\(N(\theta,I_n)\) 均值向量\(\theta\) \(I_n\)(n阶单位矩阵) - 各分量信息独立,单分量信息量为1
自然指数族 自然参数\(\theta\) \(\ddot{b}(\theta)\)\(b(\theta)\)的海森矩阵) \(n\ddot{b}(\theta)\) 信息矩阵=充分统计量的协方差矩阵,通用性极强
指数族均值参数化 均值参数\(\eta=E[T(X)]\) \([\ddot{b}(\theta)]^{-1}\) \(n[\ddot{b}(\theta)]^{-1}\) 与自然参数的信息矩阵互为逆矩阵

Fisher信息核心计算方法总结

  1. 基础流程:写对数似然→求一阶偏导(得分函数)→计算得分函数的方差/协方差矩阵;
  2. 简化技巧:优先使用等价形式\(I(\theta) = -E\left[ \frac{\partial^2 L}{\partial \theta^2} \right]\),指数族直接计算\(b(\theta)\)的二阶导数;
  3. 独立样本:直接使用可加性,n个样本的信息为单个样本的n倍;
  4. 参数变换:使用公式\(I(\varphi) = J^T I(\theta) J\)\(J\)为雅可比矩阵),避免重复计算。

posted on 2026-02-23 17:57  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航