1.5.3带有多余参数的指数族
带有多余参数的指数族 完整深度讲解
各位同学,今天我们继续沿着指数族的理论脉络,讲解它最具实用价值的推广——带有多余参数的指数族。这部分内容是广义线性模型、带冗余参数的假设检验、条件推断的核心理论基石,我们将从「引入动机→两类推广的定义拆解→实例验证→核心性质与定理→证明逻辑→应用场景」全链条,把这个知识点讲得明明白白,不留任何逻辑断点。
一、前置铺垫:为什么要引入「带多余参数的指数族」?
在之前的自然形式指数族学习中,我们处理的是参数全为「目标推断参数」的场景,但实际统计问题中,绝大多数分布都包含两类参数:
- 有兴趣参数(目标参数):我们核心关心、要做估计、检验、建模的参数,比如正态分布的均值\(\mu\)、伽马分布的均值\(\mu\);
- 多余参数(讨厌参数,nuisance parameter):我们不关心、但会影响分布特征,不得不纳入考虑的参数,比如正态分布的方差\(\sigma^2\)、伽马分布的形状参数\(\nu\)。
自然形式的指数族无法直接适配这类场景——如果把多余参数也纳入自然参数,会破坏我们对目标参数的聚焦,也无法直接解决「多余参数存在时如何推断目标参数」的核心问题。因此,我们对自然指数族做两类针对性推广,分别适配「回归建模」和「假设检验/条件推断」两大核心场景。
二、第一类推广:带有尺度参数的指数族(指数离散分布族,EDM)
这是广义线性模型(GLM)的核心理论基础,也是实际应用最广泛的指数族推广形式。
1. 正式定义与双形式拆解
带有尺度参数的指数族,密度函数有两种等价表达形式,分别适配不同的解读视角:
形式1:尺度参数形式(教材式1.5.12)
该分布族记为 \(Y \sim ED(\theta, \sigma^2)\),全称指数离散分布族(Exponential Dispersion Model)。
形式2:离散参数形式(更贴合自然指数族结构)
令离散参数 \(\phi = \sigma^{-2}\)(\(\sigma\) 为尺度参数,\(\phi\) 为离散参数,二者一一对应),则密度可改写为:
2. 核心要素逐一定义与约束
我们把每个符号的含义、作用、约束讲透,同时和自然形式指数族做对应,让大家看到理论的延续性:
| 符号 | 核心含义 | 关键约束与说明 |
|---|---|---|
| \(\theta\) | 有兴趣参数(目标参数),\(k\)维向量,与\(y\)同维度 | 我们核心要推断的参数,与响应变量\(y\)保持线性组合结构,对应自然指数族的自然参数,是分布均值的唯一决定因素 |
| \(\sigma\)/\(\phi=\sigma^{-2}\) | 多余参数:\(\sigma\)为尺度参数,\(\phi\)为离散参数 | 不参与\(\theta\)与\(y\)的线性组合,仅影响分布的离散程度,是我们不关心、但必须纳入的冗余参数 |
| \(b(\theta)\) | 势函数(对数配分函数) | 仅与有兴趣参数\(\theta\)有关,与多余参数\(\sigma\)/\(\phi\)完全无关,完全继承自然指数族势函数的核心性质:各阶导数对应分布的各阶矩结构 |
| \(c(y,\sigma)\)/ \(c(y,\phi)\) | 冗余项 | 仅与响应变量\(y\)、多余参数有关,与有兴趣参数\(\theta\)完全无关,作用是吸收所有与\(\theta\)无关的项,保证\(\theta\)与\(y\)的纯线性结构 |
| \(ED(\theta, \sigma^2)\) | 分布族标准记号 | 广义线性模型中90%以上的响应分布都属于这个族,自然形式指数族是它的特例(\(\phi=1\),即\(\sigma^2=1\)) |
3. 经典实例验证(对应教材3个例子)
我们通过3个最常用的分布,手把手教大家如何把一个分布改写为带尺度参数的指数族形式,同时对应到定义的每个要素,彻底掌握这个结构。
例1:正态分布 \(Y \sim N(\mu, \sigma^2)\)(教材例1.5.8)
正态分布是最典型的带尺度参数的指数族,我们关心均值\(\mu\),方差\(\sigma^2\)是多余参数。
- 原始密度函数:\[f(y;\mu,\sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(y-\mu)^2}{2\sigma^2} \right\} \]
- 展开指数项,改写为定义形式:
先展开平方项:\(-\frac{(y-\mu)^2}{2\sigma^2} = \frac{\mu y - \frac{1}{2}\mu^2 - \frac{1}{2}y^2}{\sigma^2}\)
再把前置系数\(\frac{1}{\sqrt{2\pi\sigma^2}}\)改写为指数形式:\(\exp\left\{ -\frac{\sigma^2}{2}\log(2\pi\sigma^2) / \sigma^2 \right\}\)
合并所有项到指数内,得到教材中的标准形式:\[f(y;\mu,\sigma) = \exp\left\{ \frac{y\mu - \frac{1}{2}y^2 - \frac{1}{2}\mu^2 - \frac{\sigma^2}{2}\log(2\pi\sigma^2)}{\sigma^2} \right\} \] - 对应定义拆解要素:
- 有兴趣参数:\(\theta_1 = \mu\)(我们关心的均值),\(y_1=y\)
- 势函数:\(b(\theta) = \frac{1}{2}\mu^2 = \frac{1}{2}\theta_1^2\)(仅与\(\theta\)有关)
- 冗余项:\(c(y,\sigma) = \frac{1}{2}y^2 + \frac{\sigma^2}{2}\log(2\pi\sigma^2)\)(仅与\(y\)、\(\sigma\)有关,与\(\theta\)无关)
- 多余参数:\(\sigma^2\)(尺度参数),\(\phi=\sigma^{-2}\)(离散参数)
例2:伽马分布 \(Y \sim \Gamma(\lambda, \nu)\)(教材例1.5.9)
伽马分布常用于正偏态数据建模,我们关心均值\(\mu = \nu/\lambda\),形状参数\(\nu\)是多余参数。
- 原始密度函数(以均值\(\mu\)为参数改写):
由\(\mu = \nu/\lambda\)得\(\lambda = \nu/\mu\),代入伽马密度:\[f(y;\mu,\nu) = \frac{(\nu/\mu)^\nu}{\Gamma(\nu)} y^{\nu-1} e^{-\frac{\nu}{\mu}y}, \quad y>0 \] - 全部改写为指数形式,提取多余参数\(\nu\):
把所有项展开为指数形式,把\(\nu\)提到括号外,得到教材中的形式:\[f(y;\mu,\nu) = \exp\left\{ \nu \left[ y(-\mu^{-1}) - \log\mu + \log y - \nu^{-1}\log y + \log\nu - \nu^{-1}\log\Gamma(\nu) \right] \right\} \] - 对应定义拆解要素(离散参数形式\(\phi=\nu\)):
- 有兴趣参数:\(\theta_1 = -\mu^{-1}\)(对应我们关心的均值\(\mu\)),\(y_1=y\)
- 势函数:\(b(\theta) = \log\mu = -\log(-\theta_1)\)(仅与\(\theta\)有关)
- 冗余项:\(c(y,\phi) = -\log y + \nu^{-1}\log y - \log\nu + \nu^{-1}\log\Gamma(\nu)\)(仅与\(y\)、\(\phi=\nu\)有关)
- 多余参数:\(\phi=\nu\)(离散参数),对应尺度参数\(\sigma^2=1/\nu\)
例3:逆高斯分布 \(Y \sim IG(\mu, \sigma^2)\)(教材例1.5.10)
逆高斯分布常用于极右偏的寿命数据建模,我们关心均值\(\mu\),\(\sigma^2\)是多余参数。
- 原始密度函数:\[f(y;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2 y^3}} \exp\left\{ -\frac{(y-\mu)^2}{2\sigma^2 \mu^2 y} \right\}, \quad y>0 \]
- 展开指数项,改写为定义形式:
展开平方项,把前置系数改写为指数形式,合并后得到教材中的标准形式:\[f(y;\mu,\sigma^2) = \exp\left\{ \frac{ -y\mu^{-2}/2 + \mu^{-1} - y^{-1}/2 - \frac{\sigma^2}{2}\log(2\pi\sigma^2 y^3) }{\sigma^2} \right\} \] - 对应定义拆解要素:
- 有兴趣参数:\(\theta_1 = -(2\mu^2)^{-1}\)(对应均值\(\mu\)),\(y_1=y\)
- 势函数:\(b(\theta) = -\mu^{-1} = -(-2\theta_1)^{\frac{1}{2}}\)(仅与\(\theta\)有关)
- 冗余项:\(c(y,\sigma) = (2y)^{-1} + \frac{\sigma^2}{2}\log(2\pi\sigma^2 y^3)\)(仅与\(y\)、\(\sigma\)有关)
- 多余参数:\(\sigma^2\)(尺度参数)
4. 带尺度参数指数族的三大核心性质
这部分性质完全继承自然指数族的结构,同时明确了多余参数的影响,是广义线性模型的核心理论支撑。
性质1:特征函数与矩性质(均值、方差的统一形式)
(1)特征函数
对\(Y \sim ED(\theta, \sigma^2)\),令\(\phi=\sigma^{-2}\),其特征函数为:
- 与自然指数族的特征函数完全呼应:自然指数族是\(\phi=1\)的特例,此时\(\varphi(t)=\exp\{b(\theta+it)-b(\theta)\}\),完全一致。
- 多余参数仅通过\(\phi\)影响特征函数的尺度,不改变势函数\(b(\theta)\)的核心作用。
(2)核心矩性质(教材式1.5.13)
这是整个分布族最具实用价值的结论,我们逐句拆解:
- 均值仅由有兴趣参数决定:\(\mathrm{E}(Y) = \dot{b}(\theta)\),和自然指数族完全一致,与多余参数\(\sigma^2\)完全无关。这正是我们定义这个分布族的核心目的——把我们关心的均值,完全聚焦到有兴趣参数\(\theta\)上,不受多余参数干扰。
- 方差的统一分解结构:方差=尺度参数\(\sigma^2\) × 方差函数\(V=\ddot{b}(\theta)\)。
- 方差函数\(V\)仅由均值\(\mu\)(即\(\theta\))决定,与多余参数无关,刻画了分布的均值-方差关系;
- 尺度参数\(\sigma^2\)是全局的离散程度调整项,不改变均值-方差的关系结构。
经典分布的矩验证(对应教材)
| 分布 | 势函数\(b(\theta)\) | 一阶导数\(\dot{b}(\theta)=\mu\) | 二阶导数\(\ddot{b}(\theta)=V\) | 方差\(\mathrm{Var}(Y)\) |
|---|---|---|---|---|
| 正态分布 | \(b(\theta)=\frac{1}{2}\theta^2\) | \(\theta=\mu\) | \(1\) | \(\sigma^2 \times 1 = \sigma^2\) |
| 伽马分布 | \(b(\theta)=-\log(-\theta)\) | \(-1/\theta=\mu\) | \(1/\theta^2=\mu^2\) | \(\sigma^2 \times \mu^2\) |
| 逆高斯分布 | \(b(\theta)=-(-2\theta)^{\frac{1}{2}}\) | \((-2\theta)^{-1/2}=\mu\) | \((-2\theta)^{-3/2}=\mu^3\) | \(\sigma^2 \times \mu^3\) |
| 泊松分布 | \(b(\theta)=e^\theta\) | \(e^\theta=\mu\) | \(e^\theta=\mu\) | \(1 \times \mu\)(\(\phi=1\)无多余参数) |
性质2:高阶中心矩的统一结构
令残差\(e = Y - \mu = Y - \mathrm{E}(Y)\),则其各阶中心矩有统一形式:
- 二阶中心矩(协方差):\(\mathrm{E}(e_i e_j) = \sigma^2 V_{ij}, \quad V=\ddot{b}(\theta)\)
- 三阶中心矩:\(\mathrm{E}(e_i e_j e_k) = \sigma^4 S_{ijk}, \quad S_{ijk} = \frac{\partial^3 b(\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k}\)
- 四阶中心矩:\(\mathrm{E}(e_i e_j e_k e_l) = \sigma^4 (V_{ij}V_{kl} + V_{ik}V_{jl} + V_{il}V_{kj}) + \sigma^6 \Delta_{ijkl}, \quad \Delta_{ijkl} = \frac{\partial^4 b(\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k \partial \theta_l}\)
核心结论:所有高阶矩的结构,完全由势函数\(b(\theta)\)的各阶导数决定,多余参数仅贡献一个尺度因子,不改变矩的结构,完全延续了自然指数族的核心性质。
性质3:样本均值的分布性质(统计推断的核心)
若\(Y_1,Y_2,\dots,Y_n\)独立同分布,且\(Y_1 \sim ED(\theta, \sigma^2)\),则样本均值\(\bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i\)服从:
这个性质是参数估计、区间估计、假设检验的核心,我们完整讲解证明逻辑:
-
第一步:单个样本的特征函数
由性质1,单个\(Y_i\)的特征函数为:\[\varphi_{Y_i}(t) = \exp\left\{ \phi \left[ b\left( \theta + \frac{it}{\phi} \right) - b(\theta) \right] \right\}, \quad \phi=\sigma^{-2} \] -
第二步:样本均值的特征函数
由独立随机变量的特征函数性质,\(\bar{Y}\)的特征函数为:\[\varphi_{\bar{Y}}(t) = \mathrm{E}\left( e^{it^\mathrm{T} \bar{Y}} \right) = \prod_{i=1}^n \mathrm{E}\left( e^{it^\mathrm{T} Y_i /n} \right) = \left[ \varphi_{Y_i}\left( \frac{t}{n} \right) \right]^n \] -
第三步:代入化简,匹配EDM形式
把单个特征函数代入,展开得:\[\varphi_{\bar{Y}}(t) = \left[ \exp\left\{ \phi \left[ b\left( \theta + \frac{it}{n\phi} \right) - b(\theta) \right] \right\} \right]^n = \exp\left\{ n\phi \left[ b\left( \theta + \frac{it}{n\phi} \right) - b(\theta) \right] \right\} \]令新的离散参数\(\phi' = n\phi = n/\sigma^2\),对应新的尺度参数\(\sigma'^2 = 1/\phi' = \sigma^2/n\),则特征函数可改写为:
\[\varphi_{\bar{Y}}(t) = \exp\left\{ \phi' \left[ b\left( \theta + \frac{it}{\phi'} \right) - b(\theta) \right] \right\} \]这正是\(ED(\theta, \sigma^2/n)\)的特征函数,由特征函数与分布的一一对应性,得证。
直观解读:样本均值的有兴趣参数\(\theta\)不变(均值不变),尺度参数缩小为原来的\(1/n\)(方差缩小为原来的\(1/n\)),和我们熟知的正态分布样本均值性质完全一致,且推广到了整个EDM族。
三、第二类推广:子集参数情形的指数族
这一类推广解决的核心问题是:当自然参数包含多余参数时,如何消除多余参数的干扰,对目标参数做统计推断,是条件推断、Fisher精确检验、带冗余参数假设检验的理论基础。
1. 正式定义(教材式1.5.14)
对于自然形式的指数族,我们将自然参数和对应的充分统计量,拆分为「有兴趣参数+对应充分统计量」和「多余参数+对应充分统计量」两个子集,密度函数可表示为:
核心要素拆解
| 符号 | 核心含义 | 维度 |
|---|---|---|
| \(\theta = (\theta_1,\dots,\theta_m)^\mathrm{T}\) | 有兴趣参数(目标推断参数) | \(m\)维 |
| \(\varphi = (\varphi_1,\dots,\varphi_l)^\mathrm{T}\) | 多余参数(冗余参数) | \(l\)维 |
| \(U(x) = (U_1(x),\dots,U_m(x))^\mathrm{T}\) | 对应有兴趣参数\(\theta\)的充分统计量 | \(m\)维 |
| \(T(x) = (T_1(x),\dots,T_l(x))^\mathrm{T}\) | 对应多余参数\(\varphi\)的充分统计量 | \(l\)维 |
| \(b(\theta,\varphi)\) | 势函数(归一化项) | 与\(\theta\)、\(\varphi\)均有关 |
本质说明:这个形式本质上还是自然形式的指数族,只是对参数和充分统计量做了子集拆分,我们的核心目标是:在有多余参数\(\varphi\)的情况下,找到仅与\(\theta\)有关的分布,实现对\(\theta\)的无干扰推断。
2. 核心定理1.5.3 与证明
这个定理是整个子集参数情形的灵魂,直接给出了消除多余参数的方法。
定理完整内容
在上述子集参数的假设下,有以下三个结论:
- 联合分布:充分统计量\((U,T)\)的联合分布仍为指数族:\[p(u,t;\theta,\varphi) = h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i + \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\} \]
- 边缘分布:\(U\)和\(T\)的边缘分布分别为:\[p(u;\theta,\varphi) = h_\varphi(u) \exp\left\{ \sum_{i=1}^m \theta_i u_i - b(\theta,\varphi) \right\} \]\[p(t;\theta,\varphi) = h_\theta(t) \exp\left\{ \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\} \]
- 核心结论(条件分布的无冗余性):条件分布\(U|T\)仅与有兴趣参数\(\theta\)有关,与多余参数\(\varphi\)完全无关,其形式为:\[p(u|t;\theta,\varphi) = h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i - b_t^*(\theta) \right\} \tag{1.5.15} \]
定理证明(逐行拆解,讲透核心逻辑)
-
联合分布的证明:
由自然指数族的核心性质(充分统计量的分布仍为指数族),\((U,T)\)是参数\((\theta,\varphi)\)的联合充分统计量,因此其联合分布必然保持指数族的形式,与原分布结构一致,得证。 -
边缘分布的证明:
以\(T\)的边缘分布为例,边缘分布是联合分布对\(u\)积分的结果:\[p(t;\theta,\varphi) = \int p(u,t;\theta,\varphi) du \]代入联合分布的形式,把与\(u\)无关的项提到积分外:
\[p(t;\theta,\varphi) = \exp\left\{ \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\} \cdot \int h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i \right\} du \]令积分结果\(h_\theta(t) = \int h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i \right\} du\),则得到教材中的边缘分布形式,\(U\)的边缘分布同理可证。
-
核心结论:条件分布与多余参数无关的证明
条件分布的定义是:\(p(u|t) = \frac{p(u,t)}{p(t)}\),我们把联合分布和\(T\)的边缘分布代入:\[p(u|t) = \frac{ h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i + \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\} }{ h_\theta(t) \exp\left\{ \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\} } \]分子分母中,与多余参数\(\varphi\)有关的项\(\sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi)\)完全抵消!
剩下的项整理为:\[p(u|t) = \frac{h^*(u,t)}{h_\theta(t)} \exp\left\{ \sum_{i=1}^m \theta_i u_i \right\} \]令\(b_t^*(\theta) = \log h_\theta(t)\),把分母的项放到指数内,就得到教材中的标准形式:
\[p(u|t) = h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i - b_t^*(\theta) \right\} \]整个表达式中,完全没有多余参数\(\varphi\),仅与有兴趣参数\(\theta\)有关,得证。
定理的核心价值与经典应用
这个定理的伟大之处在于:它给出了消除多余参数的通用方法——以对应多余参数的充分统计量为条件,得到的条件分布完全不含多余参数,我们可以直接在这个条件分布中对目标参数做推断,完全不用关心多余参数的取值。
最经典的应用就是Fisher精确检验:
- 场景:两个二项分布\(X \sim Bin(n,p_1)\),\(Y \sim Bin(m,p_2)\),检验\(H_0:p_1=p_2=p\),此时共同的成功率\(p\)是多余参数。
- 对应子集参数:有兴趣参数是\(p_1-p_2\),多余参数是\(p\),对应多余参数的充分统计量是\(T=X+Y\)。
- 由定理1.5.3,条件分布\(X|T\)服从超几何分布,完全与多余参数\(p\)无关,因此我们可以直接基于超几何分布做检验,无需知道\(p\)的取值,这就是Fisher精确检验的理论来源。
四、两类推广的总结与对比
| 推广类型 | 核心结构 | 解决的核心问题 | 核心应用场景 | 与自然指数族的关系 |
|---|---|---|---|---|
| 带尺度参数的指数族(EDM) | 多余参数作为离散系数,放在指数外,保持\(\theta\)与\(y\)的线性结构 | 把有多余尺度参数的分布,统一为「均值仅由目标参数决定、方差为尺度×方差函数」的标准形式 | 广义线性模型(GLM)、回归建模、均值建模 | 自然指数族是\(\phi=1\)的特例 |
| 子集参数情形的指数族 | 把自然参数和充分统计量拆分为两个子集,保持自然指数族的结构 | 消除多余参数的干扰,实现对目标参数的无偏推断 | 带冗余参数的假设检验、条件推断、Fisher精确检验 | 本质上仍是自然形式的指数族,仅做参数拆分 |
五、最终总结
带有多余参数的指数族,是自然指数族从「理论优美」到「实用落地」的关键一步:
- 它把统计学中绝大多数常用分布,都纳入了统一的分析框架,无论是正态、伽马、逆高斯这类带尺度参数的分布,还是泊松、伯努利这类无尺度参数的分布,都可以用统一的形式表达、统一的方法分析;
- 它彻底解决了实际统计问题中最常见的「多余参数」难题,无论是回归建模中对均值的聚焦,还是假设检验中对冗余参数的消除,都有了严谨的理论支撑;
- 它是整个现代参数统计学的核心基石,广义线性模型、生存分析、实验设计、纵向数据分析等几乎所有参数统计方法,都建立在这个理论之上。
带有多余参数的指数族 完整归纳总结表
以下表格严格对应教材定义、定理、实例与核心性质,兼顾理论严谨性与实用性,分6个模块完整归纳。
表1 两类带多余参数的指数族 核心定义与定位总表
| 推广类型 | 标准记号 | 核心密度公式 | 核心定位 | 解决的核心问题 | 核心应用场景 | 与自然指数族的关系 |
|---|---|---|---|---|---|---|
| 带有尺度参数的指数族(指数离散分布族) | \(Y \sim ED(\theta, \sigma^2)\) | 尺度形式:\(f(y;\theta,\sigma) = \exp\left\{ \frac{\theta^\mathrm{T} y - b(\theta) - c(y,\sigma)}{\sigma^2} \right\}\) 离散形式:\(f(y;\theta,\phi) = \exp\left\{ \phi \left[ \theta^\mathrm{T} y - b(\theta) - c(y,\phi) \right] \right\}\) (\(\phi=\sigma^{-2}\)) |
广义线性模型(GLM)的核心理论基石,带尺度参数分布的统一分析框架 | 分离「均值建模的目标参数」与「仅影响离散程度的多余参数」,让均值仅由目标参数决定,不受多余参数干扰 | 广义线性回归、连续/离散型响应变量建模、生物统计、计量经济学 | 自然形式指数族是其特例(\(\phi=1\),即\(\sigma^2=1\),无多余参数) |
| 子集参数情形的指数族 | 无统一记号,沿用自然指数族框架 | \(f(x;\theta,\varphi) = h(x) \exp\left\{ \sum_{i=1}^m \theta_i U_i(x) + \sum_{j=1}^l \varphi_j T_j(x) - b(\theta,\varphi) \right\}\) | 带冗余参数的假设检验、条件推断的核心理论支撑 | 消除多余参数对目标参数推断的干扰,得到仅与目标参数有关的分布 | Fisher精确检验、带冗余参数的区间估计、条件推断、列联表分析 | 本质仍是自然形式的指数族,仅对自然参数和充分统计量做子集拆分 |
表2 带尺度参数的指数族(EDM)核心要素拆解表
| 形式类型 | 核心符号 | 符号名称 | 核心含义 | 关键约束与说明 |
|---|---|---|---|---|
| 尺度参数形式(教材式1.5.12) \(f(y;\theta,\sigma) = \exp\left\{ \frac{\theta^\mathrm{T} y - b(\theta) - c(y,\sigma)}{\sigma^2} \right\}\) |
\(\theta\) | 有兴趣参数(目标参数) | 我们核心要推断的参数,唯一决定分布的均值 | \(k\)维向量,与响应变量\(y\)同维度,仅参与和\(y\)的线性组合 |
| \(\sigma\) | 尺度参数(多余参数) | 仅影响分布的离散程度,不改变均值结构 | 非负实数,是我们不关心但必须纳入的冗余参数 | |
| \(b(\theta)\) | 势函数(对数配分函数) | 决定分布的均值、方差结构,是矩性质的核心载体 | 仅与有兴趣参数\(\theta\)有关,与多余参数\(\sigma\)完全无关,继承自然指数族势函数的所有性质 | |
| \(c(y,\sigma)\) | 冗余项 | 吸收所有与目标参数\(\theta\)无关的项,保证\(\theta\)与\(y\)的纯线性结构 | 仅与响应变量\(y\)、尺度参数\(\sigma\)有关,与\(\theta\)完全无关 | |
| 离散参数等价形式 \(f(y;\theta,\phi) = \exp\left\{ \phi \left[ \theta^\mathrm{T} y - b(\theta) - c(y,\phi) \right] \right\}\) |
\(\phi = \sigma^{-2}\) | 离散参数(多余参数) | 尺度参数的倒数,适配自然指数族的指数结构 | 非负实数,\(\phi\)越大,分布离散程度越小,与\(\sigma\)一一对应 |
| \(c(y,\phi)\) | 冗余项 | 对应离散参数形式的无关项 | 仅与\(y\)、\(\phi\)有关,与\(\theta\)完全无关 | |
| 通用记号 | \(ED(\theta, \sigma^2)\) | 指数离散分布族标准记号 | 带尺度参数的指数族的标准简称 | 第一个参数为有兴趣参数\(\theta\),第二个参数为尺度参数\(\sigma^2\) |
表3 经典分布的EDM形式对照表(对应教材3个核心实例)
| 分布类型 | 原始密度核心形式 | 有兴趣参数\(\theta\) | 势函数\(b(\theta)\) | 方差函数\(V=\ddot{b}(\theta)\) | 多余参数 | 方差\(\mathrm{Var}(Y)\) | 对应教材实例 |
|---|---|---|---|---|---|---|---|
| 正态分布\(N(\mu, \sigma^2)\) | \(f(y) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(y-\mu)^2}{2\sigma^2} \right\}\) | \(\theta = \mu\) | \(b(\theta) = \frac{1}{2}\theta^2\) | \(V=1\) | 尺度参数\(\sigma^2\) | \(\sigma^2 \times 1 = \sigma^2\) | 例1.5.8 |
| 伽马分布\(\Gamma(\lambda, \nu)\) (均值\(\mu=\nu/\lambda\)) |
\(f(y) = \frac{(\nu/\mu)^\nu}{\Gamma(\nu)} y^{\nu-1} e^{-\frac{\nu}{\mu}y}\) | \(\theta = -\mu^{-1}\) | \(b(\theta) = -\log(-\theta)\) | \(V=\mu^2\) | 离散参数\(\phi=\nu\) (\(\sigma^2=1/\nu\)) |
\(\sigma^2 \times \mu^2\) | 例1.5.9 |
| 逆高斯分布\(IG(\mu, \sigma^2)\) | \(f(y) = \frac{1}{\sqrt{2\pi\sigma^2 y^3}} \exp\left\{ -\frac{(y-\mu)^2}{2\sigma^2 \mu^2 y} \right\}\) | \(\theta = -(2\mu^2)^{-1}\) | \(b(\theta) = -(-2\theta)^{\frac{1}{2}}\) | \(V=\mu^3\) | 尺度参数\(\sigma^2\) | \(\sigma^2 \times \mu^3\) | 例1.5.10 |
| 泊松分布\(Pois(\mu)\) | \(f(y) = \frac{\mu^y e^{-\mu}}{y!}\) | \(\theta = \log\mu\) | \(b(\theta) = e^\theta\) | \(V=\mu\) | 无多余参数(\(\phi=1\)) | \(\mu\) | 教材补充对照 |
表4 带尺度参数的指数族(EDM)核心性质汇总表
| 性质分类 | 数学公式 | 核心结论 | 证明核心逻辑 | 核心应用价值 |
|---|---|---|---|---|
| 特征函数 | \(\varphi(t) = \exp\left\{ \phi \left[ b\left( \theta + \frac{it}{\phi} \right) - b(\theta) \right] \right\}\) (\(\phi=\sigma^{-2}\)) |
分布完全由势函数\(b(\theta)\)和离散参数\(\phi\)唯一确定,与自然指数族特征函数结构完全一致 | 1. 特征函数定义\(\varphi(t)=\mathrm{E}[e^{it^\mathrm{T}Y}]\); 2. 代入密度函数,凑出势函数的归一化形式; 3. 利用密度积分等于1化简 |
1. 快速求解分布的特征函数; 2. 证明样本均值的分布性质; 3. 验证分布的唯一性 |
| 一二阶核心矩性质 | 期望:\(\mathrm{E}(Y) = \dot{b}(\theta) = \mu\) 方差:\(\mathrm{Var}(Y) = \sigma^2 \ddot{b}(\theta) = \sigma^2 V\) |
1. 分布的均值仅由有兴趣参数\(\theta\)决定,与多余参数完全无关; 2. 方差可统一分解为「尺度参数×方差函数」,方差函数仅由均值决定 |
1. 利用密度归一化等式对\(\theta\)求导; 2. 交换求导与积分顺序(解析性保证); 3. 结合期望的定义化简 |
1. 广义线性模型的正则连接函数、方差函数的核心来源; 2. 无需复杂积分,直接通过势函数求导得到均值和方差; 3. 统一所有EDM分布的矩计算逻辑 |
| 高阶中心矩性质 | 二阶矩:\(\mathrm{E}(e_i e_j) = \sigma^2 V_{ij}, \ V=\ddot{b}(\theta)\) 三阶矩:\(\mathrm{E}(e_i e_j e_k) = \sigma^4 S_{ijk}, \ S_{ijk}=\frac{\partial^3 b(\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k}\) 四阶矩:\(\mathrm{E}(e_i e_j e_k e_l) = \sigma^4 (V_{ij}V_{kl} + V_{ik}V_{jl} + V_{il}V_{kj}) + \sigma^6 \Delta_{ijkl}, \ \Delta_{ijkl}=\frac{\partial^4 b(\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k \partial \theta_l}\) (\(e=Y-\mu\)为残差) |
所有高阶矩的结构完全由势函数\(b(\theta)\)的各阶导数决定,多余参数仅贡献尺度因子,不改变矩的核心结构 | 对归一化等式逐次求导,结合期望的定义逐步化简 | 1. 求解分布的高阶矩、偏度、峰度; 2. 大样本推断、渐近性质分析; 3. 模型诊断与异常值检验 |
| 样本均值的分布性质 | 若\(Y_1,\dots,Y_n \overset{i.i.d.}{\sim} ED(\theta, \sigma^2)\),则样本均值\(\bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i \sim ED\left( \theta, \frac{\sigma^2}{n} \right)\) | 1. 样本均值的有兴趣参数\(\theta\)不变(均值不变); 2. 尺度参数缩小为原来的\(1/n\)(方差缩小为原来的\(1/n\)); 3. 样本均值仍服从同类型的EDM分布 |
1. 独立随机变量特征函数的乘积性质; 2. 代入单个样本的特征函数化简; 3. 匹配EDM特征函数的标准形式,由唯一性得证 |
1. 参数的点估计、区间估计; 2. 均值的假设检验; 3. 大样本统计推断的理论支撑 |
表5 子集参数情形的指数族 核心要素与定理汇总表
5.1 核心要素拆解
| 符号 | 符号名称 | 维度 | 核心含义 | 关键约束 |
|---|---|---|---|---|
| \(\theta = (\theta_1,\dots,\theta_m)^\mathrm{T}\) | 有兴趣参数(目标参数) | \(m\)维 | 我们核心要推断、检验的参数 | 自然参数的子集,对应充分统计量\(U(x)\) |
| \(\varphi = (\varphi_1,\dots,\varphi_l)^\mathrm{T}\) | 多余参数(讨厌参数) | \(l\)维 | 不关心、但会影响分布的冗余参数 | 自然参数的子集,对应充分统计量\(T(x)\) |
| \(U(x) = (U_1(x),\dots,U_m(x))^\mathrm{T}\) | 目标参数对应的充分统计量 | \(m\)维 | 承载目标参数\(\theta\)全部信息的统计量 | 仅与样本\(x\)有关,与参数无关 |
| \(T(x) = (T_1(x),\dots,T_l(x))^\mathrm{T}\) | 多余参数对应的充分统计量 | \(l\)维 | 承载多余参数\(\varphi\)全部信息的统计量 | 仅与样本\(x\)有关,与参数无关 |
| \(b(\theta,\varphi)\) | 势函数(归一化项) | 标量 | 保证密度归一化的核心项 | 与\(\theta\)、\(\varphi\)均有关 |
| \(h(x)\) | 基础测度项 | 标量 | 定义分布的支撑集,与参数无关 | 非负可测,仅与样本\(x\)有关 |
5.2 核心定理1.5.3 完整汇总
| 定理结论 | 数学公式 | 核心结论 | 证明核心逻辑 | 核心应用价值 |
|---|---|---|---|---|
| 联合分布 | \(p(u,t;\theta,\varphi) = h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i + \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\}\) | 充分统计量\((U,T)\)的联合分布仍为自然形式的指数族,结构与原分布完全一致 | 由自然指数族的核心性质:充分统计量的分布仍为指数族,直接可得 | 为边缘分布、条件分布的推导提供基础 |
| 边缘分布 | \(U\)的边缘分布:\(p(u;\theta,\varphi) = h_\varphi(u) \exp\left\{ \sum_{i=1}^m \theta_i u_i - b(\theta,\varphi) \right\}\) \(T\)的边缘分布:\(p(t;\theta,\varphi) = h_\theta(t) \exp\left\{ \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\}\) |
单个充分统计量的边缘分布仍保持指数族结构,但仍同时包含\(\theta\)和\(\varphi\),无法消除多余参数 | 对联合分布做积分,将与积分变量无关的项提出积分外,合并吸收与积分变量有关的项 | 验证充分统计量的分布性质,为条件分布推导提供基础 |
| 核心结论:条件分布 | \(p(u|t;\theta,\varphi) = h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i - b_t^*(\theta) \right\}\) | 条件分布\(U|T\)仅与有兴趣参数\(\theta\)有关,与多余参数\(\varphi\)完全无关,且仍为自然形式的指数族 | 1. 条件分布定义:\(p(u|t)=p(u,t)/p(t)\); 2. 代入联合分布与边缘分布,分子分母中与\(\varphi\)有关的项完全抵消; 3. 整理为自然指数族的标准形式 |
1. 彻底解决多余参数的干扰问题,无需知道多余参数的取值,即可对目标参数做推断; 2. Fisher精确检验、条件推断的核心理论支撑; 3. 带冗余参数的假设检验、区间估计的通用方法 |
表6 两类带多余参数的指数族 核心差异与适用场景对比表
| 对比维度 | 带尺度参数的指数族(EDM) | 子集参数情形的指数族 |
|---|---|---|
| 核心结构 | 多余参数作为离散系数放在指数外,保持\(\theta\)与\(y\)的纯线性结构 | 把自然参数和充分统计量拆分为两个子集,完全保留自然指数族的结构 |
| 多余参数的位置 | 不参与指数内的线性组合,仅作为全局尺度因子 | 与目标参数并列,同为自然参数的一部分,参与指数内的线性组合 |
| 均值的决定因素 | 仅由有兴趣参数\(\theta\)决定,与多余参数完全无关 | 均值同时与目标参数、多余参数均有关 |
| 核心优势 | 统一了带尺度参数分布的均值-方差结构,适配回归建模需求 | 提供了消除多余参数的通用方法,适配假设检验与条件推断需求 |
| 核心适用场景 | 广义线性模型、回归分析、均值建模、响应变量分布拟合 | 带冗余参数的假设检验、条件推断、列联表分析、Fisher精确检验 |
| 经典案例 | 正态线性回归、伽马回归、逆高斯回归、泊松回归 | 二项分布两样本率比较的Fisher精确检验、列联表独立性检验 |
| 与自然指数族的关系 | 是自然指数族的推广,自然指数族是其无多余参数的特例 | 本质仍是自然指数族,仅做参数与充分统计量的子集拆分 |
表7 核心符号规范说明表
| 符号 | 数学含义 | 备注说明 |
|---|---|---|
| \(\theta\) | 有兴趣参数(目标参数) | 两类推广中均为我们核心要推断的参数 |
| \(\sigma\) | 尺度参数 | 带尺度参数指数族中的多余参数,非负实数 |
| \(\phi = \sigma^{-2}\) | 离散参数 | 尺度参数的倒数,适配指数族的指数结构 |
| \(\varphi\) | 子集参数情形中的多余参数 | 自然参数的子集,与目标参数\(\theta\)并列 |
| \(b(\theta)\) | 势函数(对数配分函数) | 仅与目标参数\(\theta\)有关,决定分布的矩结构 |
| \(c(y,\sigma)\)/\(c(y,\phi)\) | 冗余项 | 仅与响应变量、多余参数有关,与目标参数无关 |
| \(U(x)\) | 目标参数对应的充分统计量 | 子集参数情形中,承载\(\theta\)全部信息的统计量 |
| \(T(x)\) | 多余参数对应的充分统计量 | 子集参数情形中,承载\(\varphi\)全部信息的统计量 |
| \(ED(\theta, \sigma^2)\) | 指数离散分布族标准记号 | 带尺度参数的指数族的标准简称 |
| \(\dot{b}(\theta)\) | \(b(\theta)\)的一阶梯度 | 对应分布的均值 |
| \(\ddot{b}(\theta)\) | \(b(\theta)\)的二阶Hessian矩阵 | 对应分布的方差函数 |
| \(\mu\) | 分布的均值 | \(\mu = \mathrm{E}(Y) = \dot{b}(\theta)\) |
| \(V\) | 方差函数 | \(V = \ddot{b}(\theta)\),仅由均值决定 |
posted on 2026-02-19 20:58 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号