2.3.2Kullback-Leibler信息(K-L距离)与Jensen不等式
Kullback-Leibler信息(K-L距离)与Jensen不等式 详细讲解与推导
开篇总览
Jensen不等式是凸分析与概率统计中处理期望与凸函数关系的核心工具,而K-L距离(相对熵)是衡量两个概率分布差异的核心指标,二者紧密关联:Jensen不等式是证明K-L距离核心性质的理论基石,K-L距离则是Jensen不等式在信息论与数理统计中的核心应用,二者共同构成了参数估计、充分性统计、信息论、机器学习的基础理论。
一、Jensen不等式(延森不等式)
1.1 前置概念:凸函数(下凸函数)
设\(f(x)\)是定义在凸集\(D\subset\mathbb{R}^n\)上的实值函数,若对任意\(x_1,x_2\in D\)、任意\(\lambda\in[0,1]\),满足:
则称\(f(x)\)为凸函数(下凸函数);若\(x_1\neq x_2\)且\(\lambda\in(0,1)\)时不等号严格成立,则称\(f(x)\)为严格凸函数。
- 二阶可导的一元函数:\(f''(x)\geq0\)为凸函数,\(f''(x)>0\)为严格凸函数。
- 典型严格凸函数:\(f(x)=-\log x\)(\(x>0\),\(f''(x)=1/x^2>0\))、\(f(x)=x^{-1}\)(\(x>0\),\(f''(x)=2/x^3>0\))。
1.2 Jensen不等式核心定理
引理2.3.2(Jensen不等式):若\(f(x)\)为凸函数,且相关期望存在,则有
若\(f(x)\)为严格凸函数,则等号成立的充要条件是\(X\)服从退化分布(即\(X=\mathbb{E}[X]\) 几乎必然成立,记为a.e.)。
详细证明
-
凸函数的支撑超平面性质
对凸函数\(f(x)\),任意\(x_0\in D\),存在常向量\(c\)(次梯度,可导时为\(f'(x_0)\)),使得对任意\(x\in D\),有:\[f(x) \geq f(x_0) + c^\text{T}(x - x_0) \]几何意义:凸函数的图像始终在其任意一点的支撑超平面(切平面)上方,这是凸函数的核心等价性质。
-
代入期望点并取期望
取\(x_0 = \mathbb{E}[X]\)(凸集的期望封闭性保证\(\mathbb{E}[X]\in D\)),代入得:\[f(X) \geq f(\mathbb{E}[X]) + c^\text{T}(X - \mathbb{E}[X]) \]对不等式两边同时取期望,由期望的单调性(若\(A\geq B\) a.e.,则\(\mathbb{E}[A]\geq\mathbb{E}[B]\)):
左边:\(\mathbb{E}[f(X)]\)
右边:\(\mathbb{E}\left[f(\mathbb{E}[X]) + c^\text{T}(X - \mathbb{E}[X])\right] = f(\mathbb{E}[X]) + c^\text{T}\mathbb{E}[X - \mathbb{E}[X]]\)
而\(\mathbb{E}[X - \mathbb{E}[X]] = 0\),因此右边化简为\(f(\mathbb{E}[X])\),最终得:\[\mathbb{E}[f(X)] \geq f(\mathbb{E}[X]) \] -
等号成立条件(严格凸情形)
- 充分性:若\(X=\mathbb{E}[X]\) a.e.,则\(f(X)=f(\mathbb{E}[X])\) a.e.,两边取期望自然相等。
- 必要性:若\(\mathbb{E}[f(X)] = f(\mathbb{E}[X])\),则支撑超平面不等式必须几乎处处取等号。严格凸函数的支撑超平面仅在\(x=x_0\)处取等,因此\(X=\mathbb{E}[X]\) a.e.,即\(X\)服从退化分布。
1.3 Jensen不等式的两个核心推论
推论1:常用凸函数的直接应用
取\(f(x)=x^{-1}\)(\(x>0\))或\(f(x)=-\log x\)(\(x>0\)),则有:
- 倒数型:\(\mathbb{E}[Y^{-1}] \geq (\mathbb{E}[Y])^{-1}\)(\(Y>0\) a.e.)
- 对数型:\(\mathbb{E}[-\log Y] \geq -\log(\mathbb{E}[Y])\)(\(Y>0\) a.e.)
证明:两个函数均为严格凸函数,直接代入Jensen不等式即可得证。该推论是证明K-L距离非负性的核心工具。
推论2:条件Jensen不等式
将普通期望替换为条件期望,有:
若\(f(x)\)严格凸,则等号成立的充要条件是\(X|T\)服从退化分布,即\(X=\varphi(T)\) a.e.(\(X\)是\(T\)的可测函数)。
特别地,对\(f(y)=-\log y\),有:
证明:条件期望满足期望的所有基本性质(单调性、线性性),因此Jensen不等式的证明可完全平移到条件期望场景,仅需将普通期望替换为条件期望即可。
二、Kullback-Leibler信息(K-L距离,相对熵)
K-L距离是衡量两个概率分布“差异程度”的核心指标,注意:它不是严格意义上的距离,不满足对称性(一般\(K(f,g)\neq K(g,f)\))和三角不等式,因此也叫“相对熵”“信息散度”。
2.1 三层核心定义
定义1:通用密度形式
对两个关于同一测度\(\mu\)的概率密度函数\(f(x)\)和\(g(x)\),\(f\)与\(g\)的K-L信息定义为:
其中\(\mathbb{E}_f\)表示对密度\(f(x)\)求期望,定义默认\(f\)关于\(g\)绝对连续(\(g(x)=0\)的地方\(f(x)\)几乎处处为0,否则积分发散)。
定义2:参数分布族形式
若\(X\sim \{f(x,\theta), \theta\in\Theta\}\)(参数分布族),\(\theta,\varphi\in\Theta\)为两个参数,则参数\(\theta\)与\(\varphi\)的K-L信息定义为:
其中\(\mathbb{E}_\theta\)表示对密度\(f(x,\theta)\)求期望,\(L(\theta,X)=\log f(X,\theta)\)为参数\(\theta\)的对数似然函数。这是数理统计中最常用的形式。
定义3:统计量的K-L信息
对统计量\(T=T(X)\),其概率密度为\(g(t,\theta)\),则\(T\)对应的K-L信息定义为:
用于衡量统计量\(T\)所包含的关于参数差异的信息。
2.2 经典案例的详细推导
例2.3.6 多元正态分布的K-L距离
设\(X\sim\)多元正态分布\(N(\theta, I_n)\),\(I_n\)为\(n\)阶单位矩阵,求\(K(\theta,\varphi)\)。
详细推导:
-
写出\(n\)维正态分布的密度函数:
\[f(x,\theta) = \left( \frac{1}{\sqrt{2\pi}} \right)^n \exp\left\{ -\frac{1}{2}\sum_{i=1}^n (x_i - \theta_i)^2 \right\} \]其中\(X=(X_1,\dots,X_n)^\text{T}\),\(\theta=(\theta_1,\dots,\theta_n)^\text{T}\),\(\varphi=(\varphi_1,\dots,\varphi_n)^\text{T}\)。
-
写出对数似然函数:
\[L(\theta,x) = -\frac{1}{2}\sum_{i=1}^n (x_i - \theta_i)^2 - \frac{n}{2}\log(2\pi) \]\[L(\varphi,x) = -\frac{1}{2}\sum_{i=1}^n (x_i - \varphi_i)^2 - \frac{n}{2}\log(2\pi) \] -
计算对数似然的差值,常数项抵消:
\[L(\theta,X) - L(\varphi,X) = -\frac{1}{2}\left[ \sum_{i=1}^n (X_i - \theta_i)^2 - \sum_{i=1}^n (X_i - \varphi_i)^2 \right] \] -
计算期望\(\mathbb{E}_\theta\):
- 因\(X_i\sim N(\theta_i,1)\),故\(\mathbb{E}_\theta[(X_i - \theta_i)^2] = 1\),即\(\sum\mathbb{E}_\theta[(X_i - \theta_i)^2] = n\)。
- 对\(\mathbb{E}_\theta[(X_i - \varphi_i)^2]\)做变形:\[(X_i - \varphi_i)^2 = (X_i - \theta_i + \theta_i - \varphi_i)^2 = (X_i - \theta_i)^2 + 2(X_i - \theta_i)(\theta_i - \varphi_i) + (\theta_i - \varphi_i)^2 \]两边取期望,\(\mathbb{E}_\theta[X_i - \theta_i]=0\),中间项抵消,得:\[\mathbb{E}_\theta[(X_i - \varphi_i)^2] = 1 + (\theta_i - \varphi_i)^2 \]因此\(\sum\mathbb{E}_\theta[(X_i - \varphi_i)^2] = n + \sum_{i=1}^n (\theta_i - \varphi_i)^2\)。
-
代入K-L距离公式:
\[\begin{align*} K(\theta,\varphi) &= -\frac{1}{2}\left[ n - \left(n + \sum_{i=1}^n (\theta_i - \varphi_i)^2\right) \right] \\ &= \frac{1}{2}\sum_{i=1}^n (\theta_i - \varphi_i)^2 = \frac{1}{2}(\theta - \varphi)^\text{T}(\theta - \varphi) \end{align*} \]即多元正态分布的K-L距离为参数向量欧氏距离平方的1/2。
例2.3.7 指数族分布的K-L距离
指数族分布的标准形式为\(X \sim f(x,\theta) = h(x)\exp\left\{ \theta^\text{T}T(x) - b(\theta) \right\}\),求\(K(\theta,\varphi)\)。
详细推导:
-
写出对数似然函数:
\[L(\theta,x) = \theta^\text{T}T(x) - b(\theta) + \log h(x) \]\[L(\varphi,x) = \varphi^\text{T}T(x) - b(\varphi) + \log h(x) \] -
计算对数似然差值,\(\log h(x)\)抵消:
\[L(\theta,X) - L(\varphi,X) = (\theta - \varphi)^\text{T}T(X) - \left[ b(\theta) - b(\varphi) \right] \] -
取期望\(\mathbb{E}_\theta\),利用指数族核心性质:正则指数族的对数配分函数\(b(\theta)\)的一阶导数等于充分统计量的期望,即\(\dot{b}(\theta) = \mathbb{E}_\theta[T(X)]\)。
该性质证明:对\(\int f(x,\theta)\text{d}\mu(x)=1\)两边对\(\theta\)求导,交换求导与积分顺序,可得\(\mathbb{E}_\theta[T(X)] = \dot{b}(\theta)\)。 -
代入K-L距离公式:
\[\begin{align*} K(\theta,\varphi) &= \mathbb{E}_\theta\left[ (\theta - \varphi)^\text{T}T(X) - (b(\theta)-b(\varphi)) \right] \\ &= (\theta - \varphi)^\text{T}\dot{b}(\theta) - \left[ b(\theta) - b(\varphi) \right] \end{align*} \]这是指数族K-L距离的通用公式,所有指数族分布均可代入该式计算。
2.3 核心理论基础:信息不等式
引理2.3.3(信息不等式):对密度函数\(f(x),g(x)\),若相关期望存在,则有
当且仅当\(f(x)=g(x)\) a.e.时等号成立。
对参数分布族,等价于:
当且仅当\(\theta=\varphi\)时等号成立。
详细证明
-
等价变形:将原式移项得
\[\int \log\frac{f(x)}{g(x)} f(x)\text{d}\mu(x) \geq 0 \]即\(K(f,g)\geq0\),这正是K-L距离的非负性。进一步变形为:
\[-\int \log\frac{g(x)}{f(x)} f(x)\text{d}\mu(x) \geq 0 \implies \mathbb{E}_f\left[ -\log\frac{g(X)}{f(X)} \right] \geq 0 \] -
应用Jensen不等式:令\(Y = \frac{g(X)}{f(X)}\)(\(Y>0\) a.e.),先计算\(\mathbb{E}_f[Y]\):
\[\mathbb{E}_f[Y] = \mathbb{E}_f\left[ \frac{g(X)}{f(X)} \right] = \int \frac{g(x)}{f(x)} f(x)\text{d}\mu(x) = \int g(x)\text{d}\mu(x) = 1 \]根据Jensen推论1的对数型不等式:
\[\mathbb{E}_f[-\log Y] \geq -\log(\mathbb{E}_f[Y]) = -\log 1 = 0 \]不等式得证。
-
等号成立条件:\(f(y)=-\log y\)是严格凸函数,等号成立当且仅当\(Y\)为退化分布,即\(\frac{g(x)}{f(x)}=c\)(常数)a.e.。结合密度的归一性\(\int g(x)\text{d}\mu=1\),得\(c=1\),即\(g(x)=f(x)\) a.e.。
2.4 K-L距离的三大基本性质
性质1:非负性
\(K(\theta,\varphi) \geq 0\),当且仅当\(\theta=\varphi\)时\(K(\theta,\varphi)=0\)。
证明:直接由信息不等式得证,刻画了“只有分布完全相同时,K-L距离为0,差异越大值越大”的核心意义。
性质2:独立样本的可加性
若\(X_1,\dots,X_n\)独立,\(X=(X_1,\dots,X_n)^\text{T}\),则有
详细证明:
独立样本的联合密度满足\(f(x,\theta)=\prod_{i=1}^n f_{X_i}(x_i,\theta)\),代入K-L定义:
该性质说明:样本量越大,K-L距离越大,分布差异越容易区分,符合统计直觉。
性质3:与充分统计量的绑定性质
- 若\(T=T(X)\)为辅助统计量(分布与参数\(\theta\)无关),则\(K_T(\theta,\varphi)=0\);
- 若\(T=T(X)\)为充分统计量,则\(K_T(\theta,\varphi)=K_X(\theta,\varphi)\)。
详细证明:
- 辅助统计量:\(T\)的密度\(g(t,\theta)=g(t,\varphi)\),因此\(K_T(\theta,\varphi)=\mathbb{E}_\theta\left[\log\frac{g(t)}{g(t)}\right] = 0\),说明辅助统计量不包含任何关于参数差异的信息。
- 充分统计量:根据因子分解定理,充分统计量满足\(f(x,\theta)=g(T(x),\theta)h(x)\)(\(h(x)\)与\(\theta\)无关),代入K-L定义:\[K_X(\theta,\varphi) = \mathbb{E}_\theta\left[ \log\frac{g(T(X),\theta)h(X)}{g(T(X),\varphi)h(X)} \right] = \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right] = K_T(\theta,\varphi) \]说明充分统计量完全保留了样本中关于参数的所有信息,无信息损失。
三、核心定理:K-L信息与充分统计量的等价刻画
3.1 前置引理
引理2.3.4:设\(X\sim f(x,\theta)\),\(T(X)\sim g(t;\theta)\)为正则分布族,相关期望存在,则有
详细证明:
根据条件期望的定义:\(\mathbb{E}[Y|T=t]\)满足对任意可测集\(B\),有
记\(m(t)=\frac{g(t,\varphi)}{g(t,\theta)}\),\(\psi(x)=\frac{f(x,\varphi)}{f(x,\theta)}\),需证\(m(t)=\mathbb{E}_\theta[\psi(X)|T=t]\)。
- 左边:\(\int_B m(t)\text{d}P_\theta^T(t) = \int_B \frac{g(t,\varphi)}{g(t,\theta)} \cdot g(t,\theta)\text{d}\mu(t) = \int_B g(t,\varphi)\text{d}\mu(t) = P_\varphi^T(B)\)
- 右边:\(\int_{T^{-1}(B)} \psi(x)\text{d}P_\theta^X(x) = \int_{T^{-1}(B)} \frac{f(x,\varphi)}{f(x,\theta)} \cdot f(x,\theta)\text{d}\mu(x) = \int_{T^{-1}(B)} f(x,\varphi)\text{d}\mu(x) = P_\varphi^X(T^{-1}(B))\)
根据随机变量分布的定义,\(P_\varphi^X(T^{-1}(B))=P_\varphi^T(B)\),左右两边相等,因此\(m(t)=\mathbb{E}_\theta[\psi(X)|T=t]\),引理得证。
3.2 核心定理
定理2.3.2:设\(X\sim \{f(x;\theta), \theta\in\Theta\}\),\(T=T(X)\sim g(t;\theta)\)为正则分布族,则有
且等号成立的充要条件是\(T=T(X)\)为充分统计量。
详细证明
-
重期望公式变形:记\(Y=\frac{f(X,\varphi)}{f(X,\theta)}\),则
\[K_X(\theta,\varphi) = \mathbb{E}_\theta\left[ -\log Y \right] = \mathbb{E}_\theta\left[ \mathbb{E}_\theta[(-\log Y)|T] \right] \] -
应用条件Jensen不等式:\(f(y)=-\log y\)是严格凸函数,因此
\[\mathbb{E}_\theta[(-\log Y)|T] \geq -\log\left[ \mathbb{E}_\theta(Y|T) \right] \]代入上式得:
\[K_X(\theta,\varphi) \geq \mathbb{E}_\theta\left[ -\log\left( \mathbb{E}_\theta(Y|T) \right) \right] \] -
代入引理2.3.4:\(\mathbb{E}_\theta(Y|T)=\frac{g(T,\varphi)}{g(T,\theta)}\),因此
\[K_X(\theta,\varphi) \geq \mathbb{E}_\theta\left[ -\log\frac{g(T,\varphi)}{g(T,\theta)} \right] = \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right] = K_T(\theta,\varphi) \]不等式得证。
-
等号成立的充要条件:
- 必要性:等号成立则条件Jensen不等式取等,即\(Y|T\)为退化分布,\(\frac{f(X,\varphi)}{f(X,\theta)}=a(T,\theta,\varphi)\) a.e.,即密度比仅与\(T\)有关。根据因子分解定理,\(T\)为充分统计量。
- 充分性:若\(T\)为充分统计量,由性质3已证\(K_T(\theta,\varphi)=K_X(\theta,\varphi)\),等号成立。
定理核心价值:从信息论角度给出了充分统计量的完美刻画——一个统计量是充分的,当且仅当它完全保留了样本中关于参数的所有K-L信息,无任何信息损失,这也是统计推断中优先使用充分统计量的根本原因。
四、知识点归纳总结表格
表1 Jensen不等式及其推论汇总
| 名称 | 核心内容 | 前提条件 | 等号成立条件 | 核心应用 |
|---|---|---|---|---|
| 凸函数定义(下凸) | 对任意\(x_1,x_2\in D\),\(\lambda\in[0,1]\),有\(f(\lambda x_1+(1-\lambda)x_2) \leq \lambda f(x_1)+(1-\lambda)f(x_2)\);二阶可导时\(f''(x)\geq0\) | \(f\)定义在凸集\(D\)上 | 严格凸:\(x_1=x_2\)或\(\lambda\in\{0,1\}\) | 凸分析、期望不等式的理论基础 |
| 标准Jensen不等式 | \(\mathbb{E}[f(X)] \geq f(\mathbb{E}[X])\) | \(f\)为凸函数,相关期望存在 | \(f\)严格凸时,\(X\)服从退化分布(\(X=\mathbb{E}[X]\) a.e.) | 证明各类期望不等式、信息不等式 |
| Jensen推论1(倒数型) | \(\mathbb{E}[Y^{-1}] \geq (\mathbb{E}[Y])^{-1}\) | \(Y>0\) a.e.,\(f(x)=x^{-1}\)为严格凸函数 | \(Y\)服从退化分布(\(Y=\)常数 a.e.) | 逆矩、方差的不等式估计 |
| Jensen推论1(对数型) | \(\mathbb{E}[-\log Y] \geq -\log(\mathbb{E}[Y])\) | \(Y>0\) a.e.,\(f(x)=-\log x\)为严格凸函数 | \(Y\)服从退化分布(\(Y=\)常数 a.e.) | 证明信息不等式、K-L距离非负性 |
| 条件Jensen不等式 | \(\mathbb{E}[f(X)|T] \geq f(\mathbb{E}[X|T])\) | \(f\)为凸函数,相关条件期望存在 | \(f\)严格凸时,\(X|T\)服从退化分布(\(X=\varphi(T)\) a.e.) | 证明充分性定理、条件期望不等式 |
表2 K-L距离的三类核心定义
| 定义类型 | 数学表达式 | 适用场景 | 符号说明 |
|---|---|---|---|
| 通用密度形式 | \(K(f,g) = \mathbb{E}_f\left[ \log\frac{f(X)}{g(X)} \right] = \int \left[\log\frac{f(x)}{g(x)}\right] f(x)\text{d}\mu(x)\) | 任意两个概率密度\(f,g\) | \(\mathbb{E}_f\):对密度\(f\)求期望;\(\mu\):控制测度 |
| 参数分布族形式 | \(K(\theta,\varphi) = \mathbb{E}_\theta\left[ \log\frac{f(X,\theta)}{f(X,\varphi)} \right] = \mathbb{E}_\theta\left[ L(\theta,X) - L(\varphi,X) \right]\) | 同一参数分布族的两个参数\(\theta,\varphi\) | \(\mathbb{E}_\theta\):对密度\(f(x,\theta)\)求期望;\(L(\theta,X)\):对数似然 |
| 统计量形式 | \(K_T(\theta,\varphi) = \mathbb{E}_\theta\left[ \log\frac{g(T,\theta)}{g(T,\varphi)} \right]\) | 统计量\(T=T(X)\),密度为\(g(t,\theta)\) | \(g(t,\theta)\):统计量\(T\)的概率密度 |
表3 K-L距离的核心性质
| 性质序号 | 性质内容 | 前提条件 | 等号/等式成立条件 | 核心意义 |
|---|---|---|---|---|
| 非负性 | \(K(\theta,\varphi) \geq 0\) | 正则分布族,K-L信息存在 | 当且仅当\(\theta=\varphi\)(\(f(x,\theta)=f(x,\varphi)\) a.e.)时\(K(\theta,\varphi)=0\) | 刻画分布差异:仅分布完全相同时K-L距离为0 |
| 可加性 | 独立样本的联合K-L距离:\(K_X(\theta,\varphi)=\sum_{i=1}^n K_{X_i}(\theta,\varphi)\) | \(X_1,\dots,X_n\)相互独立 | 恒成立 | 样本量越大,分布差异越容易区分 |
| 辅助统计量性质 | 若\(T\)为辅助统计量,则\(K_T(\theta,\varphi)=0\) | \(T\)的分布与参数\(\theta\)无关 | 恒成立 | 辅助统计量不包含参数差异的任何信息 |
| 充分统计量性质 | 若\(T\)为充分统计量,则\(K_T(\theta,\varphi)=K_X(\theta,\varphi)\) | \(T\)为参数\(\theta\)的充分统计量 | 恒成立 | 充分统计量无信息损失,完全保留样本信息 |
表4 核心引理与定理汇总
| 名称 | 核心结论 | 前提条件 | 等号成立条件 | 核心价值 |
|---|---|---|---|---|
| 信息不等式 | \(\int \log f(x)\cdot f(x)\text{d}\mu \geq \int \log g(x)\cdot f(x)\text{d}\mu\),即\(\mathbb{E}_\theta[L(\theta,X)] \geq \mathbb{E}_\theta[L(\varphi,X)]\) | 正则分布族,相关期望存在 | 当且仅当\(f(x)=g(x)\) a.e.(\(\theta=\varphi\)) | 证明K-L非负性,是极大似然估计的理论基础 |
| 引理2.3.4 | \(\frac{g(t,\varphi)}{g(t,\theta)} = \mathbb{E}_\theta\left[ \frac{f(X,\varphi)}{f(X,\theta)} \bigg| T(X)=t \right]\) | \(X\)和\(T\)为正则分布族,相关期望存在 | 恒成立 | 连接样本密度比与统计量密度比,是充分性定理的桥梁 |
| 定理2.3.2(K-L与充分性) | 对任意统计量\(T\),有\(K_X(\theta,\varphi) \geq K_T(\theta,\varphi)\) | \(X\)和\(T\)为正则分布族 | 当且仅当\(T\)为充分统计量时等号成立 | 从信息论角度给出充分统计量的严格刻画 |
表5 经典分布的K-L距离结果
| 分布类型 | 分布形式 | \(K(\theta,\varphi)\)结果 | 直观意义 |
|---|---|---|---|
| 多元正态分布 | \(X\sim N(\theta, I_n)\),\(I_n\)为\(n\)阶单位阵 | \(K(\theta,\varphi) = \frac{1}{2}(\theta-\varphi)^\text{T}(\theta-\varphi) = \frac{1}{2}|\theta-\varphi|^2\) | K-L距离与参数欧氏距离平方成正比,参数差越远,分布差异越大 |
| 正则指数族分布 | \(X\sim h(x)\exp\left\{ \theta^\text{T}T(x) - b(\theta) \right\}\) | \(K(\theta,\varphi) = (\theta-\varphi)^\text{T}\dot{b}(\theta) - \left[ b(\theta) - b(\varphi) \right]\) | 指数族K-L距离仅由对数配分函数\(b(\theta)\)决定,形式通用简洁 |
posted on 2026-02-23 18:09 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号