昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

2.3.2Kullback-Leibler信息(K-L距离)与Jensen不等式

Kullback-Leibler信息(K-L距离)与Jensen不等式 详细讲解与推导

开篇总览

Jensen不等式是凸分析与概率统计中处理期望与凸函数关系的核心工具,而K-L距离(相对熵)是衡量两个概率分布差异的核心指标,二者紧密关联:Jensen不等式是证明K-L距离核心性质的理论基石,K-L距离则是Jensen不等式在信息论与数理统计中的核心应用,二者共同构成了参数估计、充分性统计、信息论、机器学习的基础理论。


一、Jensen不等式(延森不等式)

1.1 前置概念:凸函数(下凸函数)

\(f(x)\)是定义在凸集\(D\subset\mathbb{R}^n\)上的实值函数,若对任意\(x_1,x_2\in D\)、任意\(\lambda\in[0,1]\),满足:

\[f(\lambda x_1 + (1-\lambda)x_2) \leq \lambda f(x_1) + (1-\lambda)f(x_2) \]

则称\(f(x)\)凸函数(下凸函数);若\(x_1\neq x_2\)\(\lambda\in(0,1)\)时不等号严格成立,则称\(f(x)\)严格凸函数

  • 二阶可导的一元函数:\(f''(x)\geq0\)为凸函数,\(f''(x)>0\)为严格凸函数。
  • 典型严格凸函数:\(f(x)=-\log x\)\(x>0\)\(f''(x)=1/x^2>0\))、\(f(x)=x^{-1}\)\(x>0\)\(f''(x)=2/x^3>0\))。

1.2 Jensen不等式核心定理

引理2.3.2(Jensen不等式):若\(f(x)\)为凸函数,且相关期望存在,则有

\[\mathbb{E}[f(X)] \geq f(\mathbb{E}[X]) \]

\(f(x)\)为严格凸函数,则等号成立的充要条件是\(X\)服从退化分布(即\(X=\mathbb{E}[X]\) 几乎必然成立,记为a.e.)。

详细证明

  1. 凸函数的支撑超平面性质
    对凸函数\(f(x)\),任意\(x_0\in D\),存在常向量\(c\)(次梯度,可导时为\(f'(x_0)\)),使得对任意\(x\in D\),有:

    \[f(x) \geq f(x_0) + c^\text{T}(x - x_0) \]

    几何意义:凸函数的图像始终在其任意一点的支撑超平面(切平面)上方,这是凸函数的核心等价性质。

  2. 代入期望点并取期望
    \(x_0 = \mathbb{E}[X]\)(凸集的期望封闭性保证\(\mathbb{E}[X]\in D\)),代入得:

    \[f(X) \geq f(\mathbb{E}[X]) + c^\text{T}(X - \mathbb{E}[X]) \]

    对不等式两边同时取期望,由期望的单调性(若\(A\geq B\) a.e.,则\(\mathbb{E}[A]\geq\mathbb{E}[B]\)):
    左边:\(\mathbb{E}[f(X)]\)
    右边:\(\mathbb{E}\left[f(\mathbb{E}[X]) + c^\text{T}(X - \mathbb{E}[X])\right] = f(\mathbb{E}[X]) + c^\text{T}\mathbb{E}[X - \mathbb{E}[X]]\)
    \(\mathbb{E}[X - \mathbb{E}[X]] = 0\),因此右边化简为\(f(\mathbb{E}[X])\),最终得:

    \[\mathbb{E}[f(X)] \geq f(\mathbb{E}[X]) \]

  3. 等号成立条件(严格凸情形)

    • 充分性:若\(X=\mathbb{E}[X]\) a.e.,则\(f(X)=f(\mathbb{E}[X])\) a.e.,两边取期望自然相等。
    • 必要性:若\(\mathbb{E}[f(X)] = f(\mathbb{E}[X])\),则支撑超平面不等式必须几乎处处取等号。严格凸函数的支撑超平面仅在\(x=x_0\)处取等,因此\(X=\mathbb{E}[X]\) a.e.,即\(X\)服从退化分布。

1.3 Jensen不等式的两个核心推论

推论1:常用凸函数的直接应用

\(f(x)=x^{-1}\)\(x>0\))或\(f(x)=-\log x\)\(x>0\)),则有:

  1. 倒数型:\(\mathbb{E}[Y^{-1}] \geq (\mathbb{E}[Y])^{-1}\)\(Y>0\) a.e.)
  2. 对数型:\(\mathbb{E}[-\log Y] \geq -\log(\mathbb{E}[Y])\)\(Y>0\) a.e.)

证明:两个函数均为严格凸函数,直接代入Jensen不等式即可得证。该推论是证明K-L距离非负性的核心工具。

推论2:条件Jensen不等式

将普通期望替换为条件期望,有:

\[\mathbb{E}[f(X)|T] \geq f(\mathbb{E}[X|T]) \]

\(f(x)\)严格凸,则等号成立的充要条件是\(X|T\)服从退化分布,即\(X=\varphi(T)\) a.e.(\(X\)\(T\)的可测函数)。
特别地,对\(f(y)=-\log y\),有:

\[\mathbb{E}[(-\log Y)|T] \geq -\log\left[\mathbb{E}(Y|T)\right] \]

证明:条件期望满足期望的所有基本性质(单调性、线性性),因此Jensen不等式的证明可完全平移到条件期望场景,仅需将普通期望替换为条件期望即可。


二、Kullback-Leibler信息(K-L距离,相对熵)

K-L距离是衡量两个概率分布“差异程度”的核心指标,注意:它不是严格意义上的距离,不满足对称性(一般\(K(f,g)\neq K(g,f)\))和三角不等式,因此也叫“相对熵”“信息散度”。

2.1 三层核心定义

定义1:通用密度形式

对两个关于同一测度\(\mu\)的概率密度函数\(f(x)\)\(g(x)\)\(f\)\(g\)的K-L信息定义为:

\[K(f,g) \triangleq \mathbb{E}_f\left[ \log\frac{f(X)}{g(X)} \right] = \int \left[\log\frac{f(x)}{g(x)}\right] f(x) \text{d}\mu(x) \]

其中\(\mathbb{E}_f\)表示对密度\(f(x)\)求期望,定义默认\(f\)关于\(g\)绝对连续(\(g(x)=0\)的地方\(f(x)\)几乎处处为0,否则积分发散)。

定义2:参数分布族形式

\(X\sim \{f(x,\theta), \theta\in\Theta\}\)(参数分布族),\(\theta,\varphi\in\Theta\)为两个参数,则参数\(\theta\)\(\varphi\)的K-L信息定义为:

\[K(\theta,\varphi) \triangleq \mathbb{E}_\theta\left[ \log\frac{f(X,\theta)}{f(X,\varphi)} \right] = \mathbb{E}_\theta\left[ L(\theta,X) - L(\varphi,X) \right] \tag{2.3.7} \]

其中\(\mathbb{E}_\theta\)表示对密度\(f(x,\theta)\)求期望,\(L(\theta,X)=\log f(X,\theta)\)为参数\(\theta\)的对数似然函数。这是数理统计中最常用的形式。

定义3:统计量的K-L信息

对统计量\(T=T(X)\),其概率密度为\(g(t,\theta)\),则\(T\)对应的K-L信息定义为:

\[K_T(\theta,\varphi) \triangleq \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right] \]

用于衡量统计量\(T\)所包含的关于参数差异的信息。

2.2 经典案例的详细推导

例2.3.6 多元正态分布的K-L距离

\(X\sim\)多元正态分布\(N(\theta, I_n)\)\(I_n\)\(n\)阶单位矩阵,求\(K(\theta,\varphi)\)

详细推导

  1. 写出\(n\)维正态分布的密度函数:

    \[f(x,\theta) = \left( \frac{1}{\sqrt{2\pi}} \right)^n \exp\left\{ -\frac{1}{2}\sum_{i=1}^n (x_i - \theta_i)^2 \right\} \]

    其中\(X=(X_1,\dots,X_n)^\text{T}\)\(\theta=(\theta_1,\dots,\theta_n)^\text{T}\)\(\varphi=(\varphi_1,\dots,\varphi_n)^\text{T}\)

  2. 写出对数似然函数:

    \[L(\theta,x) = -\frac{1}{2}\sum_{i=1}^n (x_i - \theta_i)^2 - \frac{n}{2}\log(2\pi) \]

    \[L(\varphi,x) = -\frac{1}{2}\sum_{i=1}^n (x_i - \varphi_i)^2 - \frac{n}{2}\log(2\pi) \]

  3. 计算对数似然的差值,常数项抵消:

    \[L(\theta,X) - L(\varphi,X) = -\frac{1}{2}\left[ \sum_{i=1}^n (X_i - \theta_i)^2 - \sum_{i=1}^n (X_i - \varphi_i)^2 \right] \]

  4. 计算期望\(\mathbb{E}_\theta\)

    • \(X_i\sim N(\theta_i,1)\),故\(\mathbb{E}_\theta[(X_i - \theta_i)^2] = 1\),即\(\sum\mathbb{E}_\theta[(X_i - \theta_i)^2] = n\)
    • \(\mathbb{E}_\theta[(X_i - \varphi_i)^2]\)做变形:

      \[(X_i - \varphi_i)^2 = (X_i - \theta_i + \theta_i - \varphi_i)^2 = (X_i - \theta_i)^2 + 2(X_i - \theta_i)(\theta_i - \varphi_i) + (\theta_i - \varphi_i)^2 \]

      两边取期望,\(\mathbb{E}_\theta[X_i - \theta_i]=0\),中间项抵消,得:

      \[\mathbb{E}_\theta[(X_i - \varphi_i)^2] = 1 + (\theta_i - \varphi_i)^2 \]

      因此\(\sum\mathbb{E}_\theta[(X_i - \varphi_i)^2] = n + \sum_{i=1}^n (\theta_i - \varphi_i)^2\)
  5. 代入K-L距离公式:

    \[\begin{align*} K(\theta,\varphi) &= -\frac{1}{2}\left[ n - \left(n + \sum_{i=1}^n (\theta_i - \varphi_i)^2\right) \right] \\ &= \frac{1}{2}\sum_{i=1}^n (\theta_i - \varphi_i)^2 = \frac{1}{2}(\theta - \varphi)^\text{T}(\theta - \varphi) \end{align*} \]

    即多元正态分布的K-L距离为参数向量欧氏距离平方的1/2。

例2.3.7 指数族分布的K-L距离

指数族分布的标准形式为\(X \sim f(x,\theta) = h(x)\exp\left\{ \theta^\text{T}T(x) - b(\theta) \right\}\),求\(K(\theta,\varphi)\)

详细推导

  1. 写出对数似然函数:

    \[L(\theta,x) = \theta^\text{T}T(x) - b(\theta) + \log h(x) \]

    \[L(\varphi,x) = \varphi^\text{T}T(x) - b(\varphi) + \log h(x) \]

  2. 计算对数似然差值,\(\log h(x)\)抵消:

    \[L(\theta,X) - L(\varphi,X) = (\theta - \varphi)^\text{T}T(X) - \left[ b(\theta) - b(\varphi) \right] \]

  3. 取期望\(\mathbb{E}_\theta\),利用指数族核心性质:正则指数族的对数配分函数\(b(\theta)\)的一阶导数等于充分统计量的期望,即\(\dot{b}(\theta) = \mathbb{E}_\theta[T(X)]\)
    该性质证明:对\(\int f(x,\theta)\text{d}\mu(x)=1\)两边对\(\theta\)求导,交换求导与积分顺序,可得\(\mathbb{E}_\theta[T(X)] = \dot{b}(\theta)\)

  4. 代入K-L距离公式:

    \[\begin{align*} K(\theta,\varphi) &= \mathbb{E}_\theta\left[ (\theta - \varphi)^\text{T}T(X) - (b(\theta)-b(\varphi)) \right] \\ &= (\theta - \varphi)^\text{T}\dot{b}(\theta) - \left[ b(\theta) - b(\varphi) \right] \end{align*} \]

    这是指数族K-L距离的通用公式,所有指数族分布均可代入该式计算。

2.3 核心理论基础:信息不等式

引理2.3.3(信息不等式):对密度函数\(f(x),g(x)\),若相关期望存在,则有

\[\int [\log f(x)]f(x)\text{d}\mu(x) \geq \int [\log g(x)]f(x)\text{d}\mu(x) \tag{2.3.10} \]

当且仅当\(f(x)=g(x)\) a.e.时等号成立。
对参数分布族,等价于:

\[\mathbb{E}_\theta[L(\theta,X)] \geq \mathbb{E}_\theta[L(\varphi,X)] \]

当且仅当\(\theta=\varphi\)时等号成立。

详细证明

  1. 等价变形:将原式移项得

    \[\int \log\frac{f(x)}{g(x)} f(x)\text{d}\mu(x) \geq 0 \]

    \(K(f,g)\geq0\),这正是K-L距离的非负性。进一步变形为:

    \[-\int \log\frac{g(x)}{f(x)} f(x)\text{d}\mu(x) \geq 0 \implies \mathbb{E}_f\left[ -\log\frac{g(X)}{f(X)} \right] \geq 0 \]

  2. 应用Jensen不等式:令\(Y = \frac{g(X)}{f(X)}\)\(Y>0\) a.e.),先计算\(\mathbb{E}_f[Y]\)

    \[\mathbb{E}_f[Y] = \mathbb{E}_f\left[ \frac{g(X)}{f(X)} \right] = \int \frac{g(x)}{f(x)} f(x)\text{d}\mu(x) = \int g(x)\text{d}\mu(x) = 1 \]

    根据Jensen推论1的对数型不等式:

    \[\mathbb{E}_f[-\log Y] \geq -\log(\mathbb{E}_f[Y]) = -\log 1 = 0 \]

    不等式得证。

  3. 等号成立条件:\(f(y)=-\log y\)是严格凸函数,等号成立当且仅当\(Y\)为退化分布,即\(\frac{g(x)}{f(x)}=c\)(常数)a.e.。结合密度的归一性\(\int g(x)\text{d}\mu=1\),得\(c=1\),即\(g(x)=f(x)\) a.e.。

2.4 K-L距离的三大基本性质

性质1:非负性

\(K(\theta,\varphi) \geq 0\),当且仅当\(\theta=\varphi\)\(K(\theta,\varphi)=0\)
证明:直接由信息不等式得证,刻画了“只有分布完全相同时,K-L距离为0,差异越大值越大”的核心意义。

性质2:独立样本的可加性

\(X_1,\dots,X_n\)独立,\(X=(X_1,\dots,X_n)^\text{T}\),则有

\[K_X(\theta,\varphi) = \sum_{i=1}^n K_{X_i}(\theta,\varphi) \]

详细证明
独立样本的联合密度满足\(f(x,\theta)=\prod_{i=1}^n f_{X_i}(x_i,\theta)\),代入K-L定义:

\[\begin{align*} K_X(\theta,\varphi) &= \mathbb{E}_\theta\left[ \log\frac{\prod_{i=1}^n f_{X_i}(X_i,\theta)}{\prod_{i=1}^n f_{X_i}(X_i,\varphi)} \right] \\ &= \mathbb{E}_\theta\left[ \sum_{i=1}^n \log\frac{f_{X_i}(X_i,\theta)}{f_{X_i}(X_i,\varphi)} \right] \\ &= \sum_{i=1}^n \mathbb{E}_\theta\left[ \log\frac{f_{X_i}(X_i,\theta)}{f_{X_i}(X_i,\varphi)} \right] = \sum_{i=1}^n K_{X_i}(\theta,\varphi) \end{align*} \]

该性质说明:样本量越大,K-L距离越大,分布差异越容易区分,符合统计直觉。

性质3:与充分统计量的绑定性质

  • \(T=T(X)\)辅助统计量(分布与参数\(\theta\)无关),则\(K_T(\theta,\varphi)=0\)
  • \(T=T(X)\)充分统计量,则\(K_T(\theta,\varphi)=K_X(\theta,\varphi)\)

详细证明

  1. 辅助统计量:\(T\)的密度\(g(t,\theta)=g(t,\varphi)\),因此\(K_T(\theta,\varphi)=\mathbb{E}_\theta\left[\log\frac{g(t)}{g(t)}\right] = 0\),说明辅助统计量不包含任何关于参数差异的信息。
  2. 充分统计量:根据因子分解定理,充分统计量满足\(f(x,\theta)=g(T(x),\theta)h(x)\)\(h(x)\)\(\theta\)无关),代入K-L定义:

    \[K_X(\theta,\varphi) = \mathbb{E}_\theta\left[ \log\frac{g(T(X),\theta)h(X)}{g(T(X),\varphi)h(X)} \right] = \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right] = K_T(\theta,\varphi) \]

    说明充分统计量完全保留了样本中关于参数的所有信息,无信息损失。

三、核心定理:K-L信息与充分统计量的等价刻画

3.1 前置引理

引理2.3.4:设\(X\sim f(x,\theta)\)\(T(X)\sim g(t;\theta)\)为正则分布族,相关期望存在,则有

\[\frac{g(t,\varphi)}{g(t,\theta)} = \mathbb{E}_\theta\left[ \frac{f(X,\varphi)}{f(X,\theta)} \bigg| T(X)=t \right] \tag{2.3.13} \]

详细证明
根据条件期望的定义:\(\mathbb{E}[Y|T=t]\)满足对任意可测集\(B\),有

\[\int_B \mathbb{E}[Y|T=t] \text{d}P_\theta^T(t) = \int_{T^{-1}(B)} Y \text{d}P_\theta^X(x) \]

\(m(t)=\frac{g(t,\varphi)}{g(t,\theta)}\)\(\psi(x)=\frac{f(x,\varphi)}{f(x,\theta)}\),需证\(m(t)=\mathbb{E}_\theta[\psi(X)|T=t]\)

  • 左边:\(\int_B m(t)\text{d}P_\theta^T(t) = \int_B \frac{g(t,\varphi)}{g(t,\theta)} \cdot g(t,\theta)\text{d}\mu(t) = \int_B g(t,\varphi)\text{d}\mu(t) = P_\varphi^T(B)\)
  • 右边:\(\int_{T^{-1}(B)} \psi(x)\text{d}P_\theta^X(x) = \int_{T^{-1}(B)} \frac{f(x,\varphi)}{f(x,\theta)} \cdot f(x,\theta)\text{d}\mu(x) = \int_{T^{-1}(B)} f(x,\varphi)\text{d}\mu(x) = P_\varphi^X(T^{-1}(B))\)

根据随机变量分布的定义,\(P_\varphi^X(T^{-1}(B))=P_\varphi^T(B)\),左右两边相等,因此\(m(t)=\mathbb{E}_\theta[\psi(X)|T=t]\),引理得证。

3.2 核心定理

定理2.3.2:设\(X\sim \{f(x;\theta), \theta\in\Theta\}\)\(T=T(X)\sim g(t;\theta)\)为正则分布族,则有

\[K_X(\theta,\varphi) \geq K_T(\theta,\varphi) \]

且等号成立的充要条件是\(T=T(X)\)为充分统计量。

详细证明

  1. 重期望公式变形:记\(Y=\frac{f(X,\varphi)}{f(X,\theta)}\),则

    \[K_X(\theta,\varphi) = \mathbb{E}_\theta\left[ -\log Y \right] = \mathbb{E}_\theta\left[ \mathbb{E}_\theta[(-\log Y)|T] \right] \]

  2. 应用条件Jensen不等式:\(f(y)=-\log y\)是严格凸函数,因此

    \[\mathbb{E}_\theta[(-\log Y)|T] \geq -\log\left[ \mathbb{E}_\theta(Y|T) \right] \]

    代入上式得:

    \[K_X(\theta,\varphi) \geq \mathbb{E}_\theta\left[ -\log\left( \mathbb{E}_\theta(Y|T) \right) \right] \]

  3. 代入引理2.3.4:\(\mathbb{E}_\theta(Y|T)=\frac{g(T,\varphi)}{g(T,\theta)}\),因此

    \[K_X(\theta,\varphi) \geq \mathbb{E}_\theta\left[ -\log\frac{g(T,\varphi)}{g(T,\theta)} \right] = \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right] = K_T(\theta,\varphi) \]

    不等式得证。

  4. 等号成立的充要条件:

    • 必要性:等号成立则条件Jensen不等式取等,即\(Y|T\)为退化分布,\(\frac{f(X,\varphi)}{f(X,\theta)}=a(T,\theta,\varphi)\) a.e.,即密度比仅与\(T\)有关。根据因子分解定理,\(T\)为充分统计量。
    • 充分性:若\(T\)为充分统计量,由性质3已证\(K_T(\theta,\varphi)=K_X(\theta,\varphi)\),等号成立。

定理核心价值:从信息论角度给出了充分统计量的完美刻画——一个统计量是充分的,当且仅当它完全保留了样本中关于参数的所有K-L信息,无任何信息损失,这也是统计推断中优先使用充分统计量的根本原因。


四、知识点归纳总结表格

表1 Jensen不等式及其推论汇总

名称 核心内容 前提条件 等号成立条件 核心应用
凸函数定义(下凸) 对任意\(x_1,x_2\in D\)\(\lambda\in[0,1]\),有\(f(\lambda x_1+(1-\lambda)x_2) \leq \lambda f(x_1)+(1-\lambda)f(x_2)\);二阶可导时\(f''(x)\geq0\) \(f\)定义在凸集\(D\) 严格凸:\(x_1=x_2\)\(\lambda\in\{0,1\}\) 凸分析、期望不等式的理论基础
标准Jensen不等式 \(\mathbb{E}[f(X)] \geq f(\mathbb{E}[X])\) \(f\)为凸函数,相关期望存在 \(f\)严格凸时,\(X\)服从退化分布(\(X=\mathbb{E}[X]\) a.e.) 证明各类期望不等式、信息不等式
Jensen推论1(倒数型) \(\mathbb{E}[Y^{-1}] \geq (\mathbb{E}[Y])^{-1}\) \(Y>0\) a.e.,\(f(x)=x^{-1}\)为严格凸函数 \(Y\)服从退化分布(\(Y=\)常数 a.e.) 逆矩、方差的不等式估计
Jensen推论1(对数型) \(\mathbb{E}[-\log Y] \geq -\log(\mathbb{E}[Y])\) \(Y>0\) a.e.,\(f(x)=-\log x\)为严格凸函数 \(Y\)服从退化分布(\(Y=\)常数 a.e.) 证明信息不等式、K-L距离非负性
条件Jensen不等式 \(\mathbb{E}[f(X)|T] \geq f(\mathbb{E}[X|T])\) \(f\)为凸函数,相关条件期望存在 \(f\)严格凸时,\(X|T\)服从退化分布(\(X=\varphi(T)\) a.e.) 证明充分性定理、条件期望不等式

表2 K-L距离的三类核心定义

定义类型 数学表达式 适用场景 符号说明
通用密度形式 \(K(f,g) = \mathbb{E}_f\left[ \log\frac{f(X)}{g(X)} \right] = \int \left[\log\frac{f(x)}{g(x)}\right] f(x)\text{d}\mu(x)\) 任意两个概率密度\(f,g\) \(\mathbb{E}_f\):对密度\(f\)求期望;\(\mu\):控制测度
参数分布族形式 \(K(\theta,\varphi) = \mathbb{E}_\theta\left[ \log\frac{f(X,\theta)}{f(X,\varphi)} \right] = \mathbb{E}_\theta\left[ L(\theta,X) - L(\varphi,X) \right]\) 同一参数分布族的两个参数\(\theta,\varphi\) \(\mathbb{E}_\theta\):对密度\(f(x,\theta)\)求期望;\(L(\theta,X)\):对数似然
统计量形式 \(K_T(\theta,\varphi) = \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right]\) 统计量\(T=T(X)\),密度为\(g(t,\theta)\) \(g(t,\theta)\):统计量\(T\)的概率密度

表3 K-L距离的核心性质

性质序号 性质内容 前提条件 等号/等式成立条件 核心意义
非负性 \(K(\theta,\varphi) \geq 0\) 正则分布族,K-L信息存在 当且仅当\(\theta=\varphi\)\(f(x,\theta)=f(x,\varphi)\) a.e.)时\(K(\theta,\varphi)=0\) 刻画分布差异:仅分布完全相同时K-L距离为0
可加性 独立样本的联合K-L距离:\(K_X(\theta,\varphi)=\sum_{i=1}^n K_{X_i}(\theta,\varphi)\) \(X_1,\dots,X_n\)相互独立 恒成立 样本量越大,分布差异越容易区分
辅助统计量性质 \(T\)为辅助统计量,则\(K_T(\theta,\varphi)=0\) \(T\)的分布与参数\(\theta\)无关 恒成立 辅助统计量不包含参数差异的任何信息
充分统计量性质 \(T\)为充分统计量,则\(K_T(\theta,\varphi)=K_X(\theta,\varphi)\) \(T\)为参数\(\theta\)的充分统计量 恒成立 充分统计量无信息损失,完全保留样本信息

表4 核心引理与定理汇总

名称 核心结论 前提条件 等号成立条件 核心价值
信息不等式 \(\int \log f(x)\cdot f(x)\text{d}\mu \geq \int \log g(x)\cdot f(x)\text{d}\mu\),即\(\mathbb{E}_\theta[L(\theta,X)] \geq \mathbb{E}_\theta[L(\varphi,X)]\) 正则分布族,相关期望存在 当且仅当\(f(x)=g(x)\) a.e.(\(\theta=\varphi\) 证明K-L非负性,是极大似然估计的理论基础
引理2.3.4 \(\frac{g(t,\varphi)}{g(t,\theta)} = \mathbb{E}_\theta\left[ \frac{f(X,\varphi)}{f(X,\theta)} \bigg| T(X)=t \right]\) \(X\)\(T\)为正则分布族,相关期望存在 恒成立 连接样本密度比与统计量密度比,是充分性定理的桥梁
定理2.3.2(K-L与充分性) 对任意统计量\(T\),有\(K_X(\theta,\varphi) \geq K_T(\theta,\varphi)\) \(X\)\(T\)为正则分布族 当且仅当\(T\)为充分统计量时等号成立 从信息论角度给出充分统计量的严格刻画

表5 经典分布的K-L距离结果

分布类型 分布形式 \(K(\theta,\varphi)\)结果 直观意义
多元正态分布 \(X\sim N(\theta, I_n)\)\(I_n\)\(n\)阶单位阵 \(K(\theta,\varphi) = \frac{1}{2}(\theta-\varphi)^\text{T}(\theta-\varphi) = \frac{1}{2}|\theta-\varphi|^2\) K-L距离与参数欧氏距离平方成正比,参数差越远,分布差异越大
正则指数族分布 \(X\sim h(x)\exp\left\{ \theta^\text{T}T(x) - b(\theta) \right\}\) \(K(\theta,\varphi) = (\theta-\varphi)^\text{T}\dot{b}(\theta) - \left[ b(\theta) - b(\varphi) \right]\) 指数族K-L距离仅由对数配分函数\(b(\theta)\)决定,形式通用简洁

posted on 2026-02-23 18:09  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航