1.5.2自然形式的指数族
自然形式的指数族 完整深度讲解
各位同学,今天我们用数理统计研究的视角,把「自然形式的指数族」这个数理统计核心基石知识点,从引入动机、核心定义、定理证明、本质性质、实例验证五个维度,拆解得明明白白,不留任何逻辑断点。
一、引入:为什么要定义「自然形式的指数族」?
在讲自然形式之前,我们先回顾一般指数族的通用形式:
这个形式里,我们拆解4个核心部分:
- \(h(x)\):仅与随机变量\(x\)相关的非负基础测度项,定义分布的支撑集;
- \(Q_i(\theta)\):原始参数\(\theta\)的函数,是参数的非线性变换;
- \(T_i(x)\):仅与\(x\)相关的充分统计量,承载样本中关于参数的全部信息;
- \(b(\theta)\):归一化的势函数(对数配分函数),保证密度积分/求和为1。
核心痛点与优化动机
一般指数族的指数部分,是参数的函数\(Q_i(\theta)\)和充分统计量\(T_i(x)\)的乘积,不是参数本身与统计量的线性组合。而统计学中,线性结构是性质最优良、计算最简便、推断最稳定的结构——不管是求矩、参数估计、假设检验,线性结构都能极大简化问题。
因此我们做一个最自然的参数替换:令\(\tilde{\theta}_i = Q_i(\theta)\),把原来的参数函数\(Q(\theta)\)直接定义为新的参数,这个新参数就叫自然参数(典范参数)。
替换后,指数部分就变成了自然参数\(\tilde{\theta}\)与充分统计量\(T(x)\)的纯线性组合,这就是「自然形式指数族」的核心来源,也是它被称为「自然」的原因。
二、自然形式指数族的正式定义与核心要素拆解
定义1.5.3 自然形式的指数族
若随机变量\(X\)的概率密度/质量函数(关于某\(\sigma\)有限测度\(\mu\),如离散计数测度、连续勒贝格测度)可表示为:
则称该分布族为自然形式的指数族。
逐要素深度拆解(每个符号的意义与约束)
-
自然参数向量\(\theta\)
\(\theta = (\theta_1, \theta_2, \dots, \theta_k)^\mathrm{T} \in \mathbb{R}^k\),是\(k\)维实值参数,也就是我们通过参数替换得到的自然参数。它不再是原始分布的常规参数(比如泊松分布的\(\lambda\)、正态分布的\(\mu\)),而是经过变换后、能和充分统计量形成线性组合的参数。 -
充分统计量向量\(T(x)\)
\(T(x) = (T_1(x), T_2(x), \dots, T_k(x))^\mathrm{T}\),是\(k\)维仅与\(x\)相关的统计量。根据因子分解定理,它是该分布族的充分统计量——包含了样本中关于参数\(\theta\)的全部信息,统计推断中仅需用\(T(x)\)即可,无需原始样本,这是指数族的核心价值之一。 -
极小、满秩的指数族
定义补充:若\(1, T_1(x), T_2(x), \dots, T_k(x)\)线性无关,则称该指数族为极小、满秩的。- 线性无关的含义:不存在不全为0的常数\(c_0,c_1,\dots,c_k\),使得\(c_0 + \sum_{i=1}^k c_i T_i(x) = 0\)在支撑集上几乎处处成立。
- 本质意义:保证参数维度无冗余,\(k\)是能描述该分布族的最小参数维度,避免参数冗余带来的非唯一性问题。
-
基础测度项\(h(x)\)
非负可测函数,\(h(x) \geq 0\),仅与\(x\)相关、与参数\(\theta\)无关。它定义了分布的支撑集(\(f(x,\theta)>0\)的\(x\)的范围),且支撑集与参数\(\theta\)无关——这是指数族的核心特征,比如均匀分布\(U(0,\theta)\)的支撑集与\(\theta\)相关,因此它不属于指数族。 -
势函数(对数配分函数)\(b(\theta)\)
这是整个定义的核心归一化项,也是后续所有矩性质的核心载体。
由密度的归一化条件\(\int f(x,\theta) d\mu(x) = 1\),将(1.5.2)代入可得:\[\int h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\} d\mu(x) = 1 \]把与\(x\)无关的\(\exp\{-b(\theta)\}\)提出积分外,两边取对数,直接得到\(b(\theta)\)的定义式:
\[b(\theta) = \log\left( \int h(x) e^{\theta^\mathrm{T} T(x)} d\mu(x) \right) \tag{1.5.4} \]它的本质是:对\(h(x)e^{\theta^\mathrm{T} T(x)}\)的积分(统计物理中的配分函数)取对数,因此叫对数配分函数;又因为它的各阶导数直接对应充分统计量的各阶矩,因此也叫势函数。
-
自然参数空间\(\Theta\)
定义为:\[\Theta = \left\{ \theta \in \mathbb{R}^k : \int h(x) e^{\theta^\mathrm{T} T(x)} d\mu(x) < +\infty \right\} \subset \mathbb{R}^k \tag{1.5.3} \]本质意义:所有能让配分函数积分收敛的自然参数\(\theta\)的集合。只有\(\theta \in \Theta\)时,\(b(\theta)\)有限,密度函数才是合法、良定义的。
简化标准形式
若令\(T_i(x)=y_i\)(即\(T(x)=Y\)),则得到自然指数族的标准形式:
我们常见的正态、泊松、二项、伯努利、指数、伽马分布,都可以写成这个标准形式。
三、核心定理1.5.1:自然参数空间的凸性与势函数的严格凸性
定理内容
自然参数空间\(\Theta\)必然是\(\mathbb{R}^k\)上的凸集,势函数\(b(\theta)\)为\(\Theta\)上的严格凸函数。
前置预备知识
- 凸集定义:对集合\(\Theta\),任意\(\theta_{(1)},\theta_{(2)} \in \Theta\),任意\(\lambda \in (0,1)\),都有\(\lambda \theta_{(1)} + (1-\lambda)\theta_{(2)} \in \Theta\),即集合内任意两点的连线完全落在集合内。
- 凸函数定义:对函数\(b(\theta)\),任意\(\theta_{(1)},\theta_{(2)} \in \Theta\),任意\(\lambda \in (0,1)\),都有\(b(\lambda \theta_{(1)} + (1-\lambda)\theta_{(2)}) \leq \lambda b(\theta_{(1)}) + (1-\lambda) b(\theta_{(2)})\);严格凸函数则要求不等号为严格小于(\(\theta_{(1)} \neq \theta_{(2)}\)时)。
- 赫尔德不等式:对非负可测函数\(u,v\),共轭指数\(p>1, 1/p+1/q=1\),有\[\int u(x)v(x) d\mu(x) \leq \left( \int u(x)^p d\mu(x) \right)^{1/p} \left( \int v(x)^q d\mu(x) \right)^{1/q} \]本次证明取\(p=1/\lambda, q=1/(1-\lambda)\),满足\(1/p+1/q=1\)。
第一部分:证明\(\Theta\)是凸集
目标:对任意\(\theta_{(1)},\theta_{(2)} \in \Theta\),\(\lambda \in (0,1)\),证明\(\theta_\lambda = \lambda \theta_{(1)} + (1-\lambda)\theta_{(2)} \in \Theta\)。
根据\(\Theta\)的定义,只需证明:
-
拆分指数项:
\[\theta_\lambda^\mathrm{T} T(x) = \lambda \theta_{(1)}^\mathrm{T} T(x) + (1-\lambda) \theta_{(2)}^\mathrm{T} T(x) \]因此\(e^{\theta_\lambda^\mathrm{T} T(x)} = e^{\lambda \theta_{(1)}^\mathrm{T} T(x)} \cdot e^{(1-\lambda) \theta_{(2)}^\mathrm{T} T(x)}\)。
-
改写积分式,适配赫尔德不等式:
利用\(h(x) = h(x)^\lambda \cdot h(x)^{1-\lambda}\),将\(a\)改写为:\[a = \int \left[ h(x) e^{\theta_{(1)}^\mathrm{T} T(x)} \right]^\lambda \cdot \left[ h(x) e^{\theta_{(2)}^\mathrm{T} T(x)} \right]^{1-\lambda} d\mu(x) \] -
应用赫尔德不等式:
\[a \leq \left( \int h(x) e^{\theta_{(1)}^\mathrm{T} T(x)} d\mu(x) \right)^\lambda \cdot \left( \int h(x) e^{\theta_{(2)}^\mathrm{T} T(x)} d\mu(x) \right)^{1-\lambda} \] -
利用\(\theta_{(1)},\theta_{(2)} \in \Theta\)的条件:
因为\(\theta_{(1)},\theta_{(2)} \in \Theta\),所以两个积分均为有限值,有限正数的幂次乘积仍为有限值,因此\(a < +\infty\),即\(\theta_\lambda \in \Theta\)。
凸集得证。
第二部分:证明\(b(\theta)\)是\(\Theta\)上的严格凸函数
目标:对任意\(\theta_{(1)} \neq \theta_{(2)} \in \Theta\),\(\lambda \in (0,1)\),证明
-
写出\(b(\theta_\lambda)\)的定义式:
\[b(\theta_\lambda) = \log\left( \int h(x) e^{\theta_\lambda^\mathrm{T} T(x)} d\mu(x) \right) \]同前一步,将积分改写为赫尔德形式:
\[\int h(x) e^{\theta_\lambda^\mathrm{T} T(x)} d\mu(x) = \int \left[ h(x) e^{\theta_{(1)}^\mathrm{T} T(x)} \right]^\lambda \cdot \left[ h(x) e^{\theta_{(2)}^\mathrm{T} T(x)} \right]^{1-\lambda} d\mu(x) \] -
应用赫尔德不等式,两边取对数:
对数函数是严格单调递增的,因此不等号方向不变:\[b(\theta_\lambda) \leq \log\left[ \left( \int h(x) e^{\theta_{(1)}^\mathrm{T} T(x)} d\mu(x) \right)^\lambda \cdot \left( \int h(x) e^{\theta_{(2)}^\mathrm{T} T(x)} d\mu(x) \right)^{1-\lambda} \right] \] -
利用对数性质展开右边:
\[\log\left[ A^\lambda B^{1-\lambda} \right] = \lambda \log A + (1-\lambda) \log B = \lambda b(\theta_{(1)}) + (1-\lambda) b(\theta_{(2)}) \]因此得到\(b(\theta_\lambda) \leq \lambda b(\theta_{(1)}) + (1-\lambda) b(\theta_{(2)})\)。
-
证明严格凸性(等号不成立):
赫尔德不等式的等号成立条件是:存在常数\(c>0\),使得\(h(x) e^{\theta_{(1)}^\mathrm{T} T(x)} = c \cdot h(x) e^{\theta_{(2)}^\mathrm{T} T(x)}\)几乎处处成立。
约去非负的\(h(x)\),两边取对数得:\((\theta_{(1)} - \theta_{(2)})^\mathrm{T} T(x) = \log c\),即存在常数\(c_0\),使得\(c_0 + (\theta_{(1)} - \theta_{(2)})^\mathrm{T} T(x) = 0\)几乎处处成立。而我们的指数族是极小、满秩的,\(1,T_1(x),\dots,T_k(x)\)线性无关,因此只有当\(\theta_{(1)} - \theta_{(2)} = 0\)(即\(\theta_{(1)}=\theta_{(2)}\))时,等号才成立。
因此当\(\theta_{(1)} \neq \theta_{(2)}\)时,不等号严格成立,\(b(\theta)\)是严格凸函数。
该定理的核心意义
- 参数估计的理论基础:自然参数空间是凸集,势函数严格凸,意味着指数族的对数似然函数是严格凹函数(凸函数的相反数是凹函数),极大似然估计(MLE)有唯一的全局最优解,无局部最优问题——这是广义线性模型(GLM)的核心理论支撑。
- 协方差矩阵的正定性:严格凸函数的Hessian矩阵是正定的,而后续我们会证明,Hessian矩阵就是充分统计量的协方差矩阵,正定意味着充分统计量无线性冗余,与满秩条件完全呼应。
四、定理1.5.2:势函数的解析性
定理内容
若\(g(x)\)在样本空间上可测,且\(G(\theta) = \int g(x) e^{\theta^\mathrm{T} T(x)} d\mu(x)\)存在(有限),则\(G(\theta)\)在自然参数空间\(\Theta\)的内部解析。特别地,\(b(\theta)\)在\(\Theta\)的内部解析。
核心解读
- 解析函数的意义:解析函数在定义域内任意阶可导,且求导与积分运算可以交换顺序——这是我们后续通过求导得到矩性质的核心前提,没有解析性,就不能随意交换求导和积分的顺序。
- 本质:该定理是拉普拉斯变换的核心性质,\(G(\theta)\)本质是\(g(x)h(x)\)关于\(T(x)\)的拉普拉斯变换,拉普拉斯变换在收敛域内必然解析,证明可参考陈希孺《数理统计引论》。
五、自然形式指数族的三大核心性质
性质1:特征函数由势函数唯一确定
结论
若\(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} x - b(\theta) \right\}\)(标准自然指数族,\(T(x)=x\)),则\(X\)的特征函数为:
其中\(i\)为虚数单位,\(t\)为实向量。
证明过程
- 特征函数的定义:\(\varphi(t) = \mathrm{E}\left[ e^{it^\mathrm{T} X} \right] = \int e^{it^\mathrm{T} x} f(x,\theta) d\mu(x)\)。
- 代入密度函数,合并指数项:\[\varphi(t) = \int h(x) \exp\left\{ (\theta + it)^\mathrm{T} x - b(\theta) \right\} d\mu(x) \]
- 凑出\(b(\theta+it)\)的形式,加减\(b(\theta+it)\):\[\varphi(t) = \exp\left\{ b(\theta + it) - b(\theta) \right\} \cdot \int h(x) \exp\left\{ (\theta + it)^\mathrm{T} x - b(\theta + it) \right\} d\mu(x) \]
- 积分内的部分是自然参数为\(\theta+it\)时的密度函数,积分值为1,因此得证。
核心意义
特征函数与分布是一一对应的,因此自然指数族的分布完全由势函数\(b(\theta)\)唯一确定,\(b(\theta)\)是自然指数族的“分布身份证”。
性质2:充分统计量\(T(X)\)也服从自然指数族分布
结论
若\(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\}\),则充分统计量\(T=T(X)\)也服从自然指数族分布,密度为:
证明过程
- 写出\(T\)的特征函数:\(\varphi_T(s) = \mathrm{E}\left[ e^{is^\mathrm{T} T(X)} \right]\),代入密度函数得:\[\varphi_T(s) = \int h(x) \exp\left\{ (\theta + is)^\mathrm{T} T(x) - b(\theta) \right\} d\mu(x) \]
- 同性质1的推导,凑出\(b(\theta+is)\),可得:\[\varphi_T(s) = \exp\left\{ b(\theta + is) - b(\theta) \right\} \]
- 该特征函数与标准自然指数族的特征函数完全一致,由特征函数的唯一性,\(T(X)\)服从自然指数族分布,形式如(1.5.7)。
核心意义
这是指数族在统计推断中的核心价值:
- 充分统计量\(T(X)\)包含了样本中关于参数的全部信息,且自身也服从指数族,性质优良,统计推断仅需用\(T(X)\)即可,无需原始样本。
- 对\(n\)个独立同分布的指数族样本,联合分布的充分统计量为\(\sum_{i=1}^n T(X_i)\),该和仍服从指数族,极大简化了大样本推断。
性质3:充分统计量的各阶矩由势函数的各阶导数唯一确定
这是自然指数族最常用、最核心的性质,没有之一。
结论
若\(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\}\),则:
- 一阶矩(期望):\(\mathrm{E}\left[ T_i(X) \right] = \frac{\partial b(\theta)}{\partial \theta_i}\),向量形式为\(\mathrm{E}\left[ T(X) \right] = \nabla b(\theta) = \dot{b}(\theta)\)(梯度)。(1.5.8)
- 二阶矩(协方差矩阵):\(\mathrm{Var}\left[ T(X) \right] = \nabla^2 b(\theta) = \ddot{b}(\theta)\)(Hessian矩阵,第\((i,j)\)元素为\(\frac{\partial^2 b(\theta)}{\partial \theta_i \partial \theta_j}\))。(1.5.9)
- 高阶中心矩:\(k\)阶中心矩对应\(b(\theta)\)的\(k\)阶偏导数,例如三阶中心矩:\[\mathrm{E}\left[ (T_i - \mathrm{E}T_i)(T_j - \mathrm{E}T_j)(T_k - \mathrm{E}T_k) \right] = \frac{\partial^3 b(\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k} \]
推论:对标准自然指数族\(T(x)=x\),有\(\mathrm{E}(X) = \dot{b}(\theta)\),\(\mathrm{Var}(X) = \ddot{b}(\theta)\)。(1.5.11)
证明过程(一阶矩)
- 由归一化条件:\(\int h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\} d\mu(x) = 1\),对\(\theta_i\)求偏导,由解析性交换求导与积分顺序:\[\int \frac{\partial}{\partial \theta_i} \left[ h(x) e^{\theta^\mathrm{T} T(x) - b(\theta)} \right] d\mu(x) = 0 \]
- 链式法则求导:\[\int h(x) e^{\theta^\mathrm{T} T(x) - b(\theta)} \cdot \left( T_i(x) - \frac{\partial b(\theta)}{\partial \theta_i} \right) d\mu(x) = 0 \]
- 拆分积分,第一项为\(\mathrm{E}[T_i(X)]\),第二项积分值为1,因此:\[\mathrm{E}[T_i(X)] - \frac{\partial b(\theta)}{\partial \theta_i} = 0 \]一阶矩得证。
证明过程(二阶矩/协方差)
对一阶矩的等式,再对\(\theta_j\)求偏导,用乘积法则展开求导,最终可得:
即协方差矩阵为\(b(\theta)\)的Hessian矩阵,二阶矩得证。
高阶矩仅需继续求导即可,以此类推。
核心意义
- 矩计算的革命性简化:无需复杂的积分/求和计算,仅需对势函数求导,即可得到任意阶矩,是计算常见分布矩的最优方法。
- 广义线性模型(GLM)的核心:GLM的正则连接函数,就是均值\(\mu = \mathrm{E}(Y)\)与自然参数\(\theta\)的关系\(\mu = \dot{b}(\theta)\),方差函数为\(\ddot{b}(\theta)\),是GLM的理论基石。
- 极大似然估计的简化:指数族的得分函数为\(S(\theta) = \sum_{i=1}^n \left[ T(x_i) - \dot{b}(\theta) \right]\),令得分函数为0,即可得到MLE的闭式方程:\(\dot{b}(\hat{\theta}) = \frac{1}{n}\sum_{i=1}^n T(x_i)\),求解极其简便。
六、实例验证:泊松分布的自然指数族形式
我们用最常见的泊松分布,验证上述所有结论,直观感受自然指数族的优势。
泊松分布的概率质量函数:\(P(X=x) = \frac{\lambda^x e^{-\lambda}}{x!}, x=0,1,2,\dots, \lambda>0\)。
步骤1:改写为自然指数族形式
对比标准形式,得到:
- 自然参数:\(\theta = \log \lambda\)(因此\(\lambda = e^\theta\)),自然参数空间\(\Theta = \mathbb{R}\);
- 充分统计量:\(T(x)=x\);
- 基础测度项:\(h(x) = \frac{1}{x!}\);
- 势函数:\(b(\theta) = \lambda = e^\theta\)。
步骤2:验证矩性质
- 一阶导数:\(\dot{b}(\theta) = e^\theta = \lambda\),正好是泊松分布的期望\(\mathrm{E}(X)=\lambda\);
- 二阶导数:\(\ddot{b}(\theta) = e^\theta = \lambda\),正好是泊松分布的方差\(\mathrm{Var}(X)=\lambda\),完全符合结论。
步骤3:验证特征函数
与泊松分布的标准特征函数完全一致。
步骤4:验证充分统计量的分布
\(n\)个独立泊松样本的充分统计量\(T=\sum_{i=1}^n X_i\),服从参数为\(n\lambda\)的泊松分布,仍为自然指数族,与性质2完全吻合。
七、总结与拓展
核心价值总结
自然形式的指数族,是数理统计的核心基石,它的核心优势在于:
- 结构标准化:将绝大多数常见分布统一为「参数与充分统计量线性组合」的指数形式,建立了统一的分析框架;
- 性质极优良:凸参数空间、严格凸的势函数,保证了参数估计的唯一性和稳定性,是频率派统计推断的核心支撑;
- 计算极简便:势函数的各阶导数直接对应分布的各阶矩,彻底简化了矩计算、参数估计、特征函数求解等核心问题;
- 应用极广泛:从UMVUE、一致最优检验,到广义线性模型、生存分析、机器学习中的指数族变分推断,都以它为理论基础。
拓展说明
统计学中绝大多数常见分布都属于指数族,包括伯努利、二项、泊松、正态、指数、伽马、贝塔、逆高斯分布等;仅少数分布不属于指数族,如均匀分布(支撑集与参数相关)、柯西分布(无有限矩)、拉普拉斯分布(非指数形式)等。
自然形式指数族 完整归纳总结表
以下表格严格对应教材定义、定理与核心性质,兼顾理论严谨性与实用性,分5个模块完整归纳。
表1 自然形式指数族核心定义与要素拆解
| 要素名称 | 数学表达式 | 核心含义 | 关键约束与说明 |
|---|---|---|---|
| 自然形式指数族标准定义 | \(f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\}\) (教材式1.5.2) |
指数族的标准规范形式,指数部分为自然参数与充分统计量的纯线性组合,是区别于一般指数族的核心特征 | 关于\(\sigma\)有限测度\(\mu\)定义(离散型为计数测度,连续型为勒贝格测度),需满足密度归一化条件\(\int f(x,\theta)d\mu(x)=1\) |
| 自然参数(典范参数)向量 | \(\theta = (\theta_1, \theta_2, \dots, \theta_k)^\mathrm{T} \in \mathbb{R}^k\) | 经参数变换后,能与充分统计量形成线性组合的参数,是指数族的核心参数 | 维度\(k\)为分布族的参数维度,不再是原始分布的常规参数(如泊松分布的\(\lambda\)、正态分布的\(\mu\)) |
| 充分统计量向量 | \(T(x) = (T_1(x), T_2(x), \dots, T_k(x))^\mathrm{T}\) | 承载样本中关于参数\(\theta\)全部信息的统计量,是指数族统计推断的核心载体 | 与参数\(\theta\)无关,仅由样本\(x\)决定;根据因子分解定理,天然是参数\(\theta\)的充分统计量 |
| 基础测度项 | \(h(x) \geq 0\) | 仅与样本\(x\)相关的非负可测函数,定义分布的支撑集 | 支撑集(\(f(x,\theta)>0\)的\(x\)范围)与参数\(\theta\)无关,这是指数族的核心判定条件之一 |
| 势函数(对数配分函数) | \(b(\theta) = \log\left( \int h(x) e^{\theta^\mathrm{T} T(x)} d\mu(x) \right)\) (教材式1.5.4) |
保证密度归一化的核心项,是指数族所有矩性质、分布特征的唯一载体 | 仅与自然参数\(\theta\)相关,其各阶导数直接对应充分统计量的各阶矩 |
| 自然参数空间 | \(\Theta = \left\{ \theta \in \mathbb{R}^k : \int h(x) e^{\theta^\mathrm{T} T(x)} d\mu(x) < +\infty \right\}\) (教材式1.5.3) |
所有能让配分函数积分收敛、势函数有限的自然参数的集合,是参数的合法取值域 | 仅当\(\theta \in \Theta\)时,密度函数良定义;是\(\mathbb{R}^k\)上的凸集 |
| 极小、满秩条件 | \(1, T_1(x), T_2(x), \dots, T_k(x)\)线性无关 | 保证参数维度无冗余,\(k\)是描述该分布族的最小参数维度 | 线性无关定义:不存在不全为0的常数\(c_0,c_1,\dots,c_k\),使得\(c_0 + \sum_{i=1}^k c_i T_i(x) = 0\)在支撑集上几乎处处成立 |
| 标准简化形式 | \(f(y,\theta) = h(y) \exp\left\{ \theta^\mathrm{T} y - b(\theta) \right\}\) (教材式1.5.5) |
令\(T(x)=y\)得到的最简形式,绝大多数常见分布可直接写为此形式 | 此时充分统计量就是随机变量本身,矩性质直接对应随机变量的矩 |
表2 核心定理完整汇总
| 定理编号与名称 | 核心结论 | 证明核心工具 | 核心理论意义 |
|---|---|---|---|
| 定理1.5.1 凸性定理 | 1. 自然参数空间\(\Theta\)是\(\mathbb{R}^k\)上的凸集; 2. 势函数\(b(\theta)\)是\(\Theta\)上的严格凸函数 |
1. 凸集/凸函数的定义; 2. 赫尔德(Hölder)不等式; 3. 极小满秩的线性无关条件 |
1. 保证指数族对数似然函数为严格凹函数,极大似然估计(MLE)有唯一全局最优解,无局部最优问题; 2. 严格凸函数的Hessian矩阵正定,对应充分统计量的协方差矩阵正定,无参数冗余; 3. 是广义线性模型(GLM)的核心理论基石 |
| 定理1.5.2 解析性定理 | 若\(g(x)\)可测且\(G(\theta) = \int g(x) e^{\theta^\mathrm{T} T(x)} d\mu(x)\)存在,则\(G(\theta)\)在\(\Theta\)内部解析;特别地,\(b(\theta)\)在\(\Theta\)内部解析 | 拉普拉斯变换的解析性质 | 1. 解析函数在定义域内任意阶可导,且求导与积分运算可交换顺序,是矩性质证明的核心前提; 2. 保证势函数的各阶导数均存在,可通过求导得到充分统计量的任意阶矩 |
表3 三大核心性质完整汇总
| 性质编号 | 核心结论公式 | 证明核心 | 核心应用价值 |
|---|---|---|---|
| 性质1 特征函数唯一性 | 对标准形式\(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} x - b(\theta) \right\}\),特征函数为 \(\varphi(t) = \exp\left\{ b(\theta + it) - b(\theta) \right\}\) (教材式1.5.6) |
1. 特征函数的定义\(\varphi(t) = \mathrm{E}[e^{it^\mathrm{T}X}]\); 2. 势函数的归一化定义; 3. 指数项的拆分与凑形 |
1. 特征函数与分布一一对应,证明自然指数族的分布完全由势函数\(b(\theta)\)唯一确定; 2. 无需复杂积分,直接通过势函数求解分布的特征函数 |
| 性质2 充分统计量的分布性质 | 若\(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\}\),则充分统计量\(T=T(X)\)也服从自然指数族: \(f(t,\theta) = h^*(t) \exp\left\{ \theta^\mathrm{T} t - b(\theta) \right\}\) (教材式1.5.7) |
1. 特征函数的定义与唯一性; 2. 同性质1的凑形推导 |
1. 统计推断仅需使用充分统计量\(T(X)\),无需原始样本,极大简化计算; 2. \(n\)个独立同分布指数族样本的联合充分统计量\(\sum_{i=1}^n T(X_i)\)仍服从指数族,适配大样本推断 |
| 性质3 矩与势函数导数的对应关系 | 1. 一阶矩(期望):\(\mathrm{E}[T_i(X)] = \frac{\partial b(\theta)}{\partial \theta_i}\),向量形式\(\mathrm{E}[T(X)] = \dot{b}(\theta)\) (教材式1.5.8) 2. 二阶矩(协方差):\(\mathrm{Var}[T(X)] = \ddot{b}(\theta) = \left( \frac{\partial^2 b(\theta)}{\partial \theta_i \partial \theta_j} \right)_{k \times k}\) (教材式1.5.9) 3. 高阶中心矩:\(k\)阶中心矩对应\(b(\theta)\)的\(k\)阶偏导数 |
1. 密度归一化等式的逐次求导; 2. 解析性保证的求导与积分交换顺序; 3. 期望的定义 |
1. 彻底简化矩计算:无需复杂积分/求和,仅需对势函数求导即可得到任意阶矩; 2. 是广义线性模型正则连接函数、方差函数的核心来源; 3. 直接给出指数族极大似然估计的闭式求解方程 |
| 标准形式推论 | 对最简形式\(Y \sim f(y,\theta) = h(y) \exp\left\{ \theta^\mathrm{T} y - b(\theta) \right\}\),有 \(\mathrm{E}(Y) = \dot{b}(\theta), \quad \mathrm{Var}(Y) = \ddot{b}(\theta)\) (教材式1.5.11) |
性质3的直接特例,令\(T(x)=x\) | 直接适配绝大多数常见分布的矩计算,是日常应用最广泛的结论 |
表4 常见分布的自然指数族形式对照表
| 分布类型 | 原始概率质量/密度函数 | 自然参数\(\theta\) | 充分统计量\(T(x)\) | 基础测度\(h(x)\) | 势函数\(b(\theta)\) | 自然参数空间\(\Theta\) |
|---|---|---|---|---|---|---|
| 伯努利分布\(Bern(p)\) | \(P(X=x)=p^x(1-p)^{1-x}, x\in\{0,1\}\) | \(\theta = \log\left( \frac{p}{1-p} \right)\)(对数优势比) | \(T(x)=x\) | \(h(x)=1\) | \(b(\theta) = \log(1+e^\theta)\) | \(\Theta = \mathbb{R}\) |
| 二项分布\(Bin(n,p)\)(\(n\)已知) | \(P(X=x)=\binom{n}{x}p^x(1-p)^{n-x}, x\in\{0,1,\dots,n\}\) | \(\theta = \log\left( \frac{p}{1-p} \right)\) | \(T(x)=x\) | \(h(x)=\binom{n}{x}\) | \(b(\theta) = n\log(1+e^\theta)\) | \(\Theta = \mathbb{R}\) |
| 泊松分布\(Pois(\lambda)\) | \(P(X=x)=\frac{\lambda^x e^{-\lambda}}{x!}, x\in\{0,1,2,\dots\}\) | \(\theta = \log\lambda\) | \(T(x)=x\) | \(h(x)=\frac{1}{x!}\) | \(b(\theta) = e^\theta\) | \(\Theta = \mathbb{R}\) |
| 指数分布\(Exp(\lambda)\) | \(f(x)=\lambda e^{-\lambda x}, x>0\) | \(\theta = -\lambda\) | \(T(x)=x\) | \(h(x)=1\) | \(b(\theta) = -\log(-\theta)\) | \(\Theta = (-\infty,0)\) |
| 单参数正态分布\(N(\mu,\sigma^2)\)(\(\sigma^2\)已知) | \(f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) | \(\theta = \frac{\mu}{\sigma^2}\) | \(T(x)=x\) | \(h(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{x^2}{2\sigma^2}}\) | \(b(\theta) = \frac{\sigma^2 \theta^2}{2}\) | \(\Theta = \mathbb{R}\) |
| 双参数正态分布\(N(\mu,\sigma^2)\) | \(f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) | \(\theta = \left( \frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2} \right)^\mathrm{T}\) | \(T(x) = (x, x^2)^\mathrm{T}\) | \(h(x)=\frac{1}{\sqrt{2\pi}}\) | \(b(\theta) = -\frac{\theta_1^2}{4\theta_2} + \frac{1}{2}\log\left( -\frac{\pi}{\theta_2} \right)\) | $\Theta = { (\theta_1,\theta_2) |
| 伽马分布\(Gamma(\alpha,\beta)\)(\(\alpha\)已知) | \(f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}, x>0\) | \(\theta = -\beta\) | \(T(x)=x\) | \(h(x)=\frac{x^{\alpha-1}}{\Gamma(\alpha)}\) | \(b(\theta) = -\alpha \log(-\theta)\) | \(\Theta = (-\infty,0)\) |
表5 核心符号规范说明表
| 符号 | 数学含义 | 备注说明 |
|---|---|---|
| \(\theta\) | 自然参数(典范参数)向量 | 维度与充分统计量一致,是指数族的核心参数 |
| \(T(x)\) | 充分统计量向量 | 仅与样本\(x\)相关,承载参数的全部信息 |
| \(h(x)\) | 基础测度项 | 非负可测,定义分布的支撑集,与参数无关 |
| \(b(\theta)\) | 势函数(对数配分函数) | 指数族的核心,唯一确定分布的所有特征与矩 |
| \(\Theta\) | 自然参数空间 | 自然参数的合法取值域,是\(\mathbb{R}^k\)上的凸集 |
| \(\mu\) | 参考测度 | 离散分布为计数测度,连续分布为勒贝格测度 |
| \(\varphi(t)\) | 特征函数 | 与分布一一对应,由势函数唯一确定 |
| \(\dot{b}(\theta)\) | \(b(\theta)\)的一阶梯度向量 | 对应充分统计量的期望 |
| \(\ddot{b}(\theta)\) | \(b(\theta)\)的二阶Hessian矩阵 | 对应充分统计量的协方差矩阵 |
| \(k\) | 自然参数/充分统计量的维度 | 极小满秩条件下,为分布族的最小参数维度 |
posted on 2026-02-19 20:51 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号