夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

2.3.2Kullback-Leibler信息（K-L距离）与Jensen不等式

Kullback-Leibler信息（K-L距离）与Jensen不等式详细讲解与推导

开篇总览

Jensen不等式是凸分析与概率统计中处理期望与凸函数关系的核心工具，而K-L距离（相对熵）是衡量两个概率分布差异的核心指标，二者紧密关联：Jensen不等式是证明K-L距离核心性质的理论基石，K-L距离则是Jensen不等式在信息论与数理统计中的核心应用，二者共同构成了参数估计、充分性统计、信息论、机器学习的基础理论。

一、Jensen不等式（延森不等式）

1.1 前置概念：凸函数（下凸函数）

设\(f(x)\)是定义在凸集\(D\subset\mathbb{R}^n\)上的实值函数，若对任意\(x_1,x_2\in D\)、任意\(\lambda\in[0,1]\)，满足：

\[f(\lambda x_1 + (1-\lambda)x_2) \leq \lambda f(x_1) + (1-\lambda)f(x_2) \]

则称\(f(x)\)为凸函数（下凸函数）；若\(x_1\neq x_2\)且\(\lambda\in(0,1)\)时不等号严格成立，则称\(f(x)\)为严格凸函数。

二阶可导的一元函数：\(f''(x)\geq0\)为凸函数，\(f''(x)>0\)为严格凸函数。
典型严格凸函数：\(f(x)=-\log x\)（\(x>0\)，\(f''(x)=1/x^2>0\)）、\(f(x)=x^{-1}\)（\(x>0\)，\(f''(x)=2/x^3>0\)）。

1.2 Jensen不等式核心定理

引理2.3.2（Jensen不等式）：若\(f(x)\)为凸函数，且相关期望存在，则有

\[\mathbb{E}[f(X)] \geq f(\mathbb{E}[X]) \]

若\(f(x)\)为严格凸函数，则等号成立的充要条件是\(X\)服从退化分布（即\(X=\mathbb{E}[X]\) 几乎必然成立，记为a.e.）。

详细证明

凸函数的支撑超平面性质
对凸函数\(f(x)\)，任意\(x_0\in D\)，存在常向量\(c\)（次梯度，可导时为\(f'(x_0)\)），使得对任意\(x\in D\)，有：

\[f(x) \geq f(x_0) + c^\text{T}(x - x_0) \]
几何意义：凸函数的图像始终在其任意一点的支撑超平面（切平面）上方，这是凸函数的核心等价性质。
代入期望点并取期望
取\(x_0 = \mathbb{E}[X]\)（凸集的期望封闭性保证\(\mathbb{E}[X]\in D\)），代入得：

\[f(X) \geq f(\mathbb{E}[X]) + c^\text{T}(X - \mathbb{E}[X]) \]
对不等式两边同时取期望，由期望的单调性（若\(A\geq B\) a.e.，则\(\mathbb{E}[A]\geq\mathbb{E}[B]\)）：
左边：\(\mathbb{E}[f(X)]\)
右边：\(\mathbb{E}\left[f(\mathbb{E}[X]) + c^\text{T}(X - \mathbb{E}[X])\right] = f(\mathbb{E}[X]) + c^\text{T}\mathbb{E}[X - \mathbb{E}[X]]\)
而\(\mathbb{E}[X - \mathbb{E}[X]] = 0\)，因此右边化简为\(f(\mathbb{E}[X])\)，最终得：

\[\mathbb{E}[f(X)] \geq f(\mathbb{E}[X]) \]
等号成立条件（严格凸情形）
- 充分性：若\(X=\mathbb{E}[X]\) a.e.，则\(f(X)=f(\mathbb{E}[X])\) a.e.，两边取期望自然相等。
- 必要性：若\(\mathbb{E}[f(X)] = f(\mathbb{E}[X])\)，则支撑超平面不等式必须几乎处处取等号。严格凸函数的支撑超平面仅在\(x=x_0\)处取等，因此\(X=\mathbb{E}[X]\) a.e.，即\(X\)服从退化分布。

1.3 Jensen不等式的两个核心推论

推论1：常用凸函数的直接应用

取\(f(x)=x^{-1}\)（\(x>0\)）或\(f(x)=-\log x\)（\(x>0\)），则有：

倒数型：\(\mathbb{E}[Y^{-1}] \geq (\mathbb{E}[Y])^{-1}\)（\(Y>0\) a.e.）
对数型：\(\mathbb{E}[-\log Y] \geq -\log(\mathbb{E}[Y])\)（\(Y>0\) a.e.）

证明：两个函数均为严格凸函数，直接代入Jensen不等式即可得证。该推论是证明K-L距离非负性的核心工具。

推论2：条件Jensen不等式

将普通期望替换为条件期望，有：

\[\mathbb{E}[f(X)|T] \geq f(\mathbb{E}[X|T]) \]

若\(f(x)\)严格凸，则等号成立的充要条件是\(X|T\)服从退化分布，即\(X=\varphi(T)\) a.e.（\(X\)是\(T\)的可测函数）。
特别地，对\(f(y)=-\log y\)，有：

\[\mathbb{E}[(-\log Y)|T] \geq -\log\left[\mathbb{E}(Y|T)\right] \]

证明：条件期望满足期望的所有基本性质（单调性、线性性），因此Jensen不等式的证明可完全平移到条件期望场景，仅需将普通期望替换为条件期望即可。

二、Kullback-Leibler信息（K-L距离，相对熵）

K-L距离是衡量两个概率分布“差异程度”的核心指标，注意：它不是严格意义上的距离，不满足对称性（一般\(K(f,g)\neq K(g,f)\)）和三角不等式，因此也叫“相对熵”“信息散度”。

2.1 三层核心定义

定义1：通用密度形式

对两个关于同一测度\(\mu\)的概率密度函数\(f(x)\)和\(g(x)\)，\(f\)与\(g\)的K-L信息定义为：

\[K(f,g) \triangleq \mathbb{E}_f\left[ \log\frac{f(X)}{g(X)} \right] = \int \left[\log\frac{f(x)}{g(x)}\right] f(x) \text{d}\mu(x) \]

其中\(\mathbb{E}_f\)表示对密度\(f(x)\)求期望，定义默认\(f\)关于\(g\)绝对连续（\(g(x)=0\)的地方\(f(x)\)几乎处处为0，否则积分发散）。

定义2：参数分布族形式

若\(X\sim \{f(x,\theta), \theta\in\Theta\}\)（参数分布族），\(\theta,\varphi\in\Theta\)为两个参数，则参数\(\theta\)与\(\varphi\)的K-L信息定义为：

\[K(\theta,\varphi) \triangleq \mathbb{E}_\theta\left[ \log\frac{f(X,\theta)}{f(X,\varphi)} \right] = \mathbb{E}_\theta\left[ L(\theta,X) - L(\varphi,X) \right] \tag{2.3.7} \]

其中\(\mathbb{E}_\theta\)表示对密度\(f(x,\theta)\)求期望，\(L(\theta,X)=\log f(X,\theta)\)为参数\(\theta\)的对数似然函数。这是数理统计中最常用的形式。

定义3：统计量的K-L信息

对统计量\(T=T(X)\)，其概率密度为\(g(t,\theta)\)，则\(T\)对应的K-L信息定义为：

\[K_T(\theta,\varphi) \triangleq \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right] \]

用于衡量统计量\(T\)所包含的关于参数差异的信息。

2.2 经典案例的详细推导

例2.3.6 多元正态分布的K-L距离

设\(X\sim\)多元正态分布\(N(\theta, I_n)\)，\(I_n\)为\(n\)阶单位矩阵，求\(K(\theta,\varphi)\)。

详细推导：

写出\(n\)维正态分布的密度函数：

\[f(x,\theta) = \left( \frac{1}{\sqrt{2\pi}} \right)^n \exp\left\{ -\frac{1}{2}\sum_{i=1}^n (x_i - \theta_i)^2 \right\} \]
其中\(X=(X_1,\dots,X_n)^\text{T}\)，\(\theta=(\theta_1,\dots,\theta_n)^\text{T}\)，\(\varphi=(\varphi_1,\dots,\varphi_n)^\text{T}\)。
写出对数似然函数：

\[L(\theta,x) = -\frac{1}{2}\sum_{i=1}^n (x_i - \theta_i)^2 - \frac{n}{2}\log(2\pi) \]
\[L(\varphi,x) = -\frac{1}{2}\sum_{i=1}^n (x_i - \varphi_i)^2 - \frac{n}{2}\log(2\pi) \]
计算对数似然的差值，常数项抵消：

\[L(\theta,X) - L(\varphi,X) = -\frac{1}{2}\left[ \sum_{i=1}^n (X_i - \theta_i)^2 - \sum_{i=1}^n (X_i - \varphi_i)^2 \right] \]
计算期望\(\mathbb{E}_\theta\)：
- 因\(X_i\sim N(\theta_i,1)\)，故\(\mathbb{E}_\theta[(X_i - \theta_i)^2] = 1\)，即\(\sum\mathbb{E}_\theta[(X_i - \theta_i)^2] = n\)。
- 对\(\mathbb{E}_\theta[(X_i - \varphi_i)^2]\)做变形：
  \[(X_i - \varphi_i)^2 = (X_i - \theta_i + \theta_i - \varphi_i)^2 = (X_i - \theta_i)^2 + 2(X_i - \theta_i)(\theta_i - \varphi_i) + (\theta_i - \varphi_i)^2 \]
  两边取期望，\(\mathbb{E}_\theta[X_i - \theta_i]=0\)，中间项抵消，得：
  \[\mathbb{E}_\theta[(X_i - \varphi_i)^2] = 1 + (\theta_i - \varphi_i)^2 \]
  因此\(\sum\mathbb{E}_\theta[(X_i - \varphi_i)^2] = n + \sum_{i=1}^n (\theta_i - \varphi_i)^2\)。
代入K-L距离公式：

\[\begin{align*} K(\theta,\varphi) &= -\frac{1}{2}\left[ n - \left(n + \sum_{i=1}^n (\theta_i - \varphi_i)^2\right) \right] \\ &= \frac{1}{2}\sum_{i=1}^n (\theta_i - \varphi_i)^2 = \frac{1}{2}(\theta - \varphi)^\text{T}(\theta - \varphi) \end{align*} \]
即多元正态分布的K-L距离为参数向量欧氏距离平方的1/2。

例2.3.7 指数族分布的K-L距离

指数族分布的标准形式为\(X \sim f(x,\theta) = h(x)\exp\left\{ \theta^\text{T}T(x) - b(\theta) \right\}\)，求\(K(\theta,\varphi)\)。

详细推导：

写出对数似然函数：

\[L(\theta,x) = \theta^\text{T}T(x) - b(\theta) + \log h(x) \]
\[L(\varphi,x) = \varphi^\text{T}T(x) - b(\varphi) + \log h(x) \]
计算对数似然差值，\(\log h(x)\)抵消：

\[L(\theta,X) - L(\varphi,X) = (\theta - \varphi)^\text{T}T(X) - \left[ b(\theta) - b(\varphi) \right] \]
取期望\(\mathbb{E}_\theta\)，利用指数族核心性质：正则指数族的对数配分函数\(b(\theta)\)的一阶导数等于充分统计量的期望，即\(\dot{b}(\theta) = \mathbb{E}_\theta[T(X)]\)。
该性质证明：对\(\int f(x,\theta)\text{d}\mu(x)=1\)两边对\(\theta\)求导，交换求导与积分顺序，可得\(\mathbb{E}_\theta[T(X)] = \dot{b}(\theta)\)。
代入K-L距离公式：

\[\begin{align*} K(\theta,\varphi) &= \mathbb{E}_\theta\left[ (\theta - \varphi)^\text{T}T(X) - (b(\theta)-b(\varphi)) \right] \\ &= (\theta - \varphi)^\text{T}\dot{b}(\theta) - \left[ b(\theta) - b(\varphi) \right] \end{align*} \]
这是指数族K-L距离的通用公式，所有指数族分布均可代入该式计算。

2.3 核心理论基础：信息不等式

引理2.3.3（信息不等式）：对密度函数\(f(x),g(x)\)，若相关期望存在，则有

\[\int [\log f(x)]f(x)\text{d}\mu(x) \geq \int [\log g(x)]f(x)\text{d}\mu(x) \tag{2.3.10} \]

当且仅当\(f(x)=g(x)\) a.e.时等号成立。
对参数分布族，等价于：

\[\mathbb{E}_\theta[L(\theta,X)] \geq \mathbb{E}_\theta[L(\varphi,X)] \]

当且仅当\(\theta=\varphi\)时等号成立。

详细证明

等价变形：将原式移项得

\[\int \log\frac{f(x)}{g(x)} f(x)\text{d}\mu(x) \geq 0 \]
即\(K(f,g)\geq0\)，这正是K-L距离的非负性。进一步变形为：

\[-\int \log\frac{g(x)}{f(x)} f(x)\text{d}\mu(x) \geq 0 \implies \mathbb{E}_f\left[ -\log\frac{g(X)}{f(X)} \right] \geq 0 \]
应用Jensen不等式：令\(Y = \frac{g(X)}{f(X)}\)（\(Y>0\) a.e.），先计算\(\mathbb{E}_f[Y]\)：

\[\mathbb{E}_f[Y] = \mathbb{E}_f\left[ \frac{g(X)}{f(X)} \right] = \int \frac{g(x)}{f(x)} f(x)\text{d}\mu(x) = \int g(x)\text{d}\mu(x) = 1 \]
根据Jensen推论1的对数型不等式：

\[\mathbb{E}_f[-\log Y] \geq -\log(\mathbb{E}_f[Y]) = -\log 1 = 0 \]
不等式得证。
等号成立条件：\(f(y)=-\log y\)是严格凸函数，等号成立当且仅当\(Y\)为退化分布，即\(\frac{g(x)}{f(x)}=c\)（常数）a.e.。结合密度的归一性\(\int g(x)\text{d}\mu=1\)，得\(c=1\)，即\(g(x)=f(x)\) a.e.。

2.4 K-L距离的三大基本性质

性质1：非负性

\(K(\theta,\varphi) \geq 0\)，当且仅当\(\theta=\varphi\)时\(K(\theta,\varphi)=0\)。
证明：直接由信息不等式得证，刻画了“只有分布完全相同时，K-L距离为0，差异越大值越大”的核心意义。

性质2：独立样本的可加性

若\(X_1,\dots,X_n\)独立，\(X=(X_1,\dots,X_n)^\text{T}\)，则有

\[K_X(\theta,\varphi) = \sum_{i=1}^n K_{X_i}(\theta,\varphi) \]

详细证明：
独立样本的联合密度满足\(f(x,\theta)=\prod_{i=1}^n f_{X_i}(x_i,\theta)\)，代入K-L定义：

\[\begin{align*} K_X(\theta,\varphi) &= \mathbb{E}_\theta\left[ \log\frac{\prod_{i=1}^n f_{X_i}(X_i,\theta)}{\prod_{i=1}^n f_{X_i}(X_i,\varphi)} \right] \\ &= \mathbb{E}_\theta\left[ \sum_{i=1}^n \log\frac{f_{X_i}(X_i,\theta)}{f_{X_i}(X_i,\varphi)} \right] \\ &= \sum_{i=1}^n \mathbb{E}_\theta\left[ \log\frac{f_{X_i}(X_i,\theta)}{f_{X_i}(X_i,\varphi)} \right] = \sum_{i=1}^n K_{X_i}(\theta,\varphi) \end{align*} \]

该性质说明：样本量越大，K-L距离越大，分布差异越容易区分，符合统计直觉。

性质3：与充分统计量的绑定性质

若\(T=T(X)\)为辅助统计量（分布与参数\(\theta\)无关），则\(K_T(\theta,\varphi)=0\)；
若\(T=T(X)\)为充分统计量，则\(K_T(\theta,\varphi)=K_X(\theta,\varphi)\)。

详细证明：

辅助统计量：\(T\)的密度\(g(t,\theta)=g(t,\varphi)\)，因此\(K_T(\theta,\varphi)=\mathbb{E}_\theta\left[\log\frac{g(t)}{g(t)}\right] = 0\)，说明辅助统计量不包含任何关于参数差异的信息。
充分统计量：根据因子分解定理，充分统计量满足\(f(x,\theta)=g(T(x),\theta)h(x)\)（\(h(x)\)与\(\theta\)无关），代入K-L定义：
\[K_X(\theta,\varphi) = \mathbb{E}_\theta\left[ \log\frac{g(T(X),\theta)h(X)}{g(T(X),\varphi)h(X)} \right] = \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right] = K_T(\theta,\varphi) \]
说明充分统计量完全保留了样本中关于参数的所有信息，无信息损失。

三、核心定理：K-L信息与充分统计量的等价刻画

3.1 前置引理

引理2.3.4：设\(X\sim f(x,\theta)\)，\(T(X)\sim g(t;\theta)\)为正则分布族，相关期望存在，则有

\[\frac{g(t,\varphi)}{g(t,\theta)} = \mathbb{E}_\theta\left[ \frac{f(X,\varphi)}{f(X,\theta)} \bigg| T(X)=t \right] \tag{2.3.13} \]

详细证明：
根据条件期望的定义：\(\mathbb{E}[Y|T=t]\)满足对任意可测集\(B\)，有

\[\int_B \mathbb{E}[Y|T=t] \text{d}P_\theta^T(t) = \int_{T^{-1}(B)} Y \text{d}P_\theta^X(x) \]

记\(m(t)=\frac{g(t,\varphi)}{g(t,\theta)}\)，\(\psi(x)=\frac{f(x,\varphi)}{f(x,\theta)}\)，需证\(m(t)=\mathbb{E}_\theta[\psi(X)|T=t]\)。

左边：\(\int_B m(t)\text{d}P_\theta^T(t) = \int_B \frac{g(t,\varphi)}{g(t,\theta)} \cdot g(t,\theta)\text{d}\mu(t) = \int_B g(t,\varphi)\text{d}\mu(t) = P_\varphi^T(B)\)
右边：\(\int_{T^{-1}(B)} \psi(x)\text{d}P_\theta^X(x) = \int_{T^{-1}(B)} \frac{f(x,\varphi)}{f(x,\theta)} \cdot f(x,\theta)\text{d}\mu(x) = \int_{T^{-1}(B)} f(x,\varphi)\text{d}\mu(x) = P_\varphi^X(T^{-1}(B))\)

根据随机变量分布的定义，\(P_\varphi^X(T^{-1}(B))=P_\varphi^T(B)\)，左右两边相等，因此\(m(t)=\mathbb{E}_\theta[\psi(X)|T=t]\)，引理得证。

3.2 核心定理

定理2.3.2：设\(X\sim \{f(x;\theta), \theta\in\Theta\}\)，\(T=T(X)\sim g(t;\theta)\)为正则分布族，则有

\[K_X(\theta,\varphi) \geq K_T(\theta,\varphi) \]

且等号成立的充要条件是\(T=T(X)\)为充分统计量。

详细证明

重期望公式变形：记\(Y=\frac{f(X,\varphi)}{f(X,\theta)}\)，则

\[K_X(\theta,\varphi) = \mathbb{E}_\theta\left[ -\log Y \right] = \mathbb{E}_\theta\left[ \mathbb{E}_\theta[(-\log Y)|T] \right] \]
应用条件Jensen不等式：\(f(y)=-\log y\)是严格凸函数，因此

\[\mathbb{E}_\theta[(-\log Y)|T] \geq -\log\left[ \mathbb{E}_\theta(Y|T) \right] \]
代入上式得：

\[K_X(\theta,\varphi) \geq \mathbb{E}_\theta\left[ -\log\left( \mathbb{E}_\theta(Y|T) \right) \right] \]
代入引理2.3.4：\(\mathbb{E}_\theta(Y|T)=\frac{g(T,\varphi)}{g(T,\theta)}\)，因此

\[K_X(\theta,\varphi) \geq \mathbb{E}_\theta\left[ -\log\frac{g(T,\varphi)}{g(T,\theta)} \right] = \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right] = K_T(\theta,\varphi) \]
不等式得证。
等号成立的充要条件：
- 必要性：等号成立则条件Jensen不等式取等，即\(Y|T\)为退化分布，\(\frac{f(X,\varphi)}{f(X,\theta)}=a(T,\theta,\varphi)\) a.e.，即密度比仅与\(T\)有关。根据因子分解定理，\(T\)为充分统计量。
- 充分性：若\(T\)为充分统计量，由性质3已证\(K_T(\theta,\varphi)=K_X(\theta,\varphi)\)，等号成立。

定理核心价值：从信息论角度给出了充分统计量的完美刻画——一个统计量是充分的，当且仅当它完全保留了样本中关于参数的所有K-L信息，无任何信息损失，这也是统计推断中优先使用充分统计量的根本原因。

四、知识点归纳总结表格

表1 Jensen不等式及其推论汇总

名称	核心内容	前提条件	等号成立条件	核心应用
凸函数定义（下凸）	对任意\(x_1,x_2\in D\)，\(\lambda\in[0,1]\)，有\(f(\lambda x_1+(1-\lambda)x_2) \leq \lambda f(x_1)+(1-\lambda)f(x_2)\)；二阶可导时\(f''(x)\geq0\)	\(f\)定义在凸集\(D\)上	严格凸：\(x_1=x_2\)或\(\lambda\in\{0,1\}\)	凸分析、期望不等式的理论基础
标准Jensen不等式	\(\mathbb{E}[f(X)] \geq f(\mathbb{E}[X])\)	\(f\)为凸函数，相关期望存在	\(f\)严格凸时，\(X\)服从退化分布（\(X=\mathbb{E}[X]\) a.e.）	证明各类期望不等式、信息不等式
Jensen推论1（倒数型）	\(\mathbb{E}[Y^{-1}] \geq (\mathbb{E}[Y])^{-1}\)	\(Y>0\) a.e.，\(f(x)=x^{-1}\)为严格凸函数	\(Y\)服从退化分布（\(Y=\)常数 a.e.）	逆矩、方差的不等式估计
Jensen推论1（对数型）	\(\mathbb{E}[-\log Y] \geq -\log(\mathbb{E}[Y])\)	\(Y>0\) a.e.，\(f(x)=-\log x\)为严格凸函数	\(Y\)服从退化分布（\(Y=\)常数 a.e.）	证明信息不等式、K-L距离非负性
条件Jensen不等式	\(\mathbb{E}[f(X)\|T] \geq f(\mathbb{E}[X\|T])\)	\(f\)为凸函数，相关条件期望存在	\(f\)严格凸时，\(X\|T\)服从退化分布（\(X=\varphi(T)\) a.e.）	证明充分性定理、条件期望不等式

表2 K-L距离的三类核心定义

定义类型	数学表达式	适用场景	符号说明
通用密度形式	\(K(f,g) = \mathbb{E}_f\left[ \log\frac{f(X)}{g(X)} \right] = \int \left[\log\frac{f(x)}{g(x)}\right] f(x)\text{d}\mu(x)\)	任意两个概率密度\(f,g\)	\(\mathbb{E}_f\)：对密度\(f\)求期望；\(\mu\)：控制测度
参数分布族形式	\(K(\theta,\varphi) = \mathbb{E}_\theta\left[ \log\frac{f(X,\theta)}{f(X,\varphi)} \right] = \mathbb{E}_\theta\left[ L(\theta,X) - L(\varphi,X) \right]\)	同一参数分布族的两个参数\(\theta,\varphi\)	\(\mathbb{E}_\theta\)：对密度\(f(x,\theta)\)求期望；\(L(\theta,X)\)：对数似然
统计量形式	\(K_T(\theta,\varphi) = \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right]\)	统计量\(T=T(X)\)，密度为\(g(t,\theta)\)	\(g(t,\theta)\)：统计量\(T\)的概率密度

表3 K-L距离的核心性质

性质序号	性质内容	前提条件	等号/等式成立条件	核心意义
非负性	\(K(\theta,\varphi) \geq 0\)	正则分布族，K-L信息存在	当且仅当\(\theta=\varphi\)（\(f(x,\theta)=f(x,\varphi)\) a.e.）时\(K(\theta,\varphi)=0\)	刻画分布差异：仅分布完全相同时K-L距离为0
可加性	独立样本的联合K-L距离：\(K_X(\theta,\varphi)=\sum_{i=1}^n K_{X_i}(\theta,\varphi)\)	\(X_1,\dots,X_n\)相互独立	恒成立	样本量越大，分布差异越容易区分
辅助统计量性质	若\(T\)为辅助统计量，则\(K_T(\theta,\varphi)=0\)	\(T\)的分布与参数\(\theta\)无关	恒成立	辅助统计量不包含参数差异的任何信息
充分统计量性质	若\(T\)为充分统计量，则\(K_T(\theta,\varphi)=K_X(\theta,\varphi)\)	\(T\)为参数\(\theta\)的充分统计量	恒成立	充分统计量无信息损失，完全保留样本信息

表4 核心引理与定理汇总

名称	核心结论	前提条件	等号成立条件	核心价值
信息不等式	\(\int \log f(x)\cdot f(x)\text{d}\mu \geq \int \log g(x)\cdot f(x)\text{d}\mu\)，即\(\mathbb{E}_\theta[L(\theta,X)] \geq \mathbb{E}_\theta[L(\varphi,X)]\)	正则分布族，相关期望存在	当且仅当\(f(x)=g(x)\) a.e.（\(\theta=\varphi\)）	证明K-L非负性，是极大似然估计的理论基础
引理2.3.4	\(\frac{g(t,\varphi)}{g(t,\theta)} = \mathbb{E}_\theta\left[ \frac{f(X,\varphi)}{f(X,\theta)} \bigg\| T(X)=t \right]\)	\(X\)和\(T\)为正则分布族，相关期望存在	恒成立	连接样本密度比与统计量密度比，是充分性定理的桥梁
定理2.3.2（K-L与充分性）	对任意统计量\(T\)，有\(K_X(\theta,\varphi) \geq K_T(\theta,\varphi)\)	\(X\)和\(T\)为正则分布族	当且仅当\(T\)为充分统计量时等号成立	从信息论角度给出充分统计量的严格刻画

表5 经典分布的K-L距离结果

分布类型	分布形式	\(K(\theta,\varphi)\)结果	直观意义
多元正态分布	\(X\sim N(\theta, I_n)\)，\(I_n\)为\(n\)阶单位阵	\(K(\theta,\varphi) = \frac{1}{2}(\theta-\varphi)^\text{T}(\theta-\varphi) = \frac{1}{2}\|\theta-\varphi\|^2\)	K-L距离与参数欧氏距离平方成正比，参数差越远，分布差异越大
正则指数族分布	\(X\sim h(x)\exp\left\{ \theta^\text{T}T(x) - b(\theta) \right\}\)	\(K(\theta,\varphi) = (\theta-\varphi)^\text{T}\dot{b}(\theta) - \left[ b(\theta) - b(\varphi) \right]\)	指数族K-L距离仅由对数配分函数\(b(\theta)\)决定，形式通用简洁

posted on 2026-02-23 18:09 Indian_Mysore 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一

2.3.2Kullback-Leibler信息（K-L距离）与Jensen不等式

Kullback-Leibler信息（K-L距离）与Jensen不等式详细讲解与推导

开篇总览

一、Jensen不等式（延森不等式）

1.1 前置概念：凸函数（下凸函数）

1.2 Jensen不等式核心定理

详细证明

1.3 Jensen不等式的两个核心推论

推论1：常用凸函数的直接应用

推论2：条件Jensen不等式

二、Kullback-Leibler信息（K-L距离，相对熵）

2.1 三层核心定义

定义1：通用密度形式

定义2：参数分布族形式

定义3：统计量的K-L信息

2.2 经典案例的详细推导

例2.3.6 多元正态分布的K-L距离

例2.3.7 指数族分布的K-L距离

2.3 核心理论基础：信息不等式

详细证明

2.4 K-L距离的三大基本性质

性质1：非负性

性质2：独立样本的可加性

性质3：与充分统计量的绑定性质

三、核心定理：K-L信息与充分统计量的等价刻画

3.1 前置引理

3.2 核心定理

详细证明

四、知识点归纳总结表格

表1 Jensen不等式及其推论汇总

表2 K-L距离的三类核心定义

表3 K-L距离的核心性质

表4 核心引理与定理汇总

表5 经典分布的K-L距离结果

导航

公告

昆仑山:眼中无形心中有穴之穴人合一

2.3.2Kullback-Leibler信息（K-L距离）与Jensen不等式

Kullback-Leibler信息（K-L距离）与Jensen不等式 详细讲解与推导

开篇总览

一、Jensen不等式（延森不等式）

1.1 前置概念：凸函数（下凸函数）

1.2 Jensen不等式核心定理

详细证明

1.3 Jensen不等式的两个核心推论

推论1：常用凸函数的直接应用

推论2：条件Jensen不等式

二、Kullback-Leibler信息（K-L距离，相对熵）

2.1 三层核心定义

定义1：通用密度形式

定义2：参数分布族形式

定义3：统计量的K-L信息

2.2 经典案例的详细推导

例2.3.6 多元正态分布的K-L距离

例2.3.7 指数族分布的K-L距离

2.3 核心理论基础：信息不等式

详细证明

2.4 K-L距离的三大基本性质

性质1：非负性

性质2：独立样本的可加性

性质3：与充分统计量的绑定性质

三、核心定理：K-L信息与充分统计量的等价刻画

3.1 前置引理

3.2 核心定理

详细证明

四、知识点归纳总结表格

表1 Jensen不等式及其推论汇总

表2 K-L距离的三类核心定义

表3 K-L距离的核心性质

表4 核心引理与定理汇总

表5 经典分布的K-L距离结果

导航

公告

Kullback-Leibler信息（K-L距离）与Jensen不等式详细讲解与推导