昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

1.5.3带有多余参数的指数族

带有多余参数的指数族 完整深度讲解

各位同学,今天我们继续沿着指数族的理论脉络,讲解它最具实用价值的推广——带有多余参数的指数族。这部分内容是广义线性模型、带冗余参数的假设检验、条件推断的核心理论基石,我们将从「引入动机→两类推广的定义拆解→实例验证→核心性质与定理→证明逻辑→应用场景」全链条,把这个知识点讲得明明白白,不留任何逻辑断点。


一、前置铺垫:为什么要引入「带多余参数的指数族」?

在之前的自然形式指数族学习中,我们处理的是参数全为「目标推断参数」的场景,但实际统计问题中,绝大多数分布都包含两类参数

  1. 有兴趣参数(目标参数):我们核心关心、要做估计、检验、建模的参数,比如正态分布的均值\(\mu\)、伽马分布的均值\(\mu\)
  2. 多余参数(讨厌参数,nuisance parameter):我们不关心、但会影响分布特征,不得不纳入考虑的参数,比如正态分布的方差\(\sigma^2\)、伽马分布的形状参数\(\nu\)

自然形式的指数族无法直接适配这类场景——如果把多余参数也纳入自然参数,会破坏我们对目标参数的聚焦,也无法直接解决「多余参数存在时如何推断目标参数」的核心问题。因此,我们对自然指数族做两类针对性推广,分别适配「回归建模」和「假设检验/条件推断」两大核心场景。


二、第一类推广:带有尺度参数的指数族(指数离散分布族,EDM)

这是广义线性模型(GLM)的核心理论基础,也是实际应用最广泛的指数族推广形式。

1. 正式定义与双形式拆解

带有尺度参数的指数族,密度函数有两种等价表达形式,分别适配不同的解读视角:

形式1:尺度参数形式(教材式1.5.12)

\[Y \sim f(y;\theta,\sigma) = \exp\left\{ \frac{\theta^\mathrm{T} y - b(\theta) - c(y,\sigma)}{\sigma^2} \right\} \]

该分布族记为 \(Y \sim ED(\theta, \sigma^2)\),全称指数离散分布族(Exponential Dispersion Model)

形式2:离散参数形式(更贴合自然指数族结构)

令离散参数 \(\phi = \sigma^{-2}\)\(\sigma\) 为尺度参数,\(\phi\) 为离散参数,二者一一对应),则密度可改写为:

\[f(y;\theta,\phi) = \exp\left\{ \phi \left[ \theta^\mathrm{T} y - b(\theta) - c(y,\phi) \right] \right\} \]


2. 核心要素逐一定义与约束

我们把每个符号的含义、作用、约束讲透,同时和自然形式指数族做对应,让大家看到理论的延续性:

符号 核心含义 关键约束与说明
\(\theta\) 有兴趣参数(目标参数)\(k\)维向量,与\(y\)同维度 我们核心要推断的参数,与响应变量\(y\)保持线性组合结构,对应自然指数族的自然参数,是分布均值的唯一决定因素
\(\sigma\)/\(\phi=\sigma^{-2}\) 多余参数\(\sigma\)为尺度参数,\(\phi\)为离散参数 不参与\(\theta\)\(y\)的线性组合,仅影响分布的离散程度,是我们不关心、但必须纳入的冗余参数
\(b(\theta)\) 势函数(对数配分函数) 仅与有兴趣参数\(\theta\)有关,与多余参数\(\sigma\)/\(\phi\)完全无关,完全继承自然指数族势函数的核心性质:各阶导数对应分布的各阶矩结构
\(c(y,\sigma)\)/ \(c(y,\phi)\) 冗余项 仅与响应变量\(y\)、多余参数有关,与有兴趣参数\(\theta\)完全无关,作用是吸收所有与\(\theta\)无关的项,保证\(\theta\)\(y\)的纯线性结构
\(ED(\theta, \sigma^2)\) 分布族标准记号 广义线性模型中90%以上的响应分布都属于这个族,自然形式指数族是它的特例(\(\phi=1\),即\(\sigma^2=1\)

3. 经典实例验证(对应教材3个例子)

我们通过3个最常用的分布,手把手教大家如何把一个分布改写为带尺度参数的指数族形式,同时对应到定义的每个要素,彻底掌握这个结构。

例1:正态分布 \(Y \sim N(\mu, \sigma^2)\)(教材例1.5.8)

正态分布是最典型的带尺度参数的指数族,我们关心均值\(\mu\),方差\(\sigma^2\)是多余参数。

  1. 原始密度函数:

    \[f(y;\mu,\sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(y-\mu)^2}{2\sigma^2} \right\} \]

  2. 展开指数项,改写为定义形式:
    先展开平方项:\(-\frac{(y-\mu)^2}{2\sigma^2} = \frac{\mu y - \frac{1}{2}\mu^2 - \frac{1}{2}y^2}{\sigma^2}\)
    再把前置系数\(\frac{1}{\sqrt{2\pi\sigma^2}}\)改写为指数形式:\(\exp\left\{ -\frac{\sigma^2}{2}\log(2\pi\sigma^2) / \sigma^2 \right\}\)
    合并所有项到指数内,得到教材中的标准形式:

    \[f(y;\mu,\sigma) = \exp\left\{ \frac{y\mu - \frac{1}{2}y^2 - \frac{1}{2}\mu^2 - \frac{\sigma^2}{2}\log(2\pi\sigma^2)}{\sigma^2} \right\} \]

  3. 对应定义拆解要素:
    • 有兴趣参数:\(\theta_1 = \mu\)(我们关心的均值),\(y_1=y\)
    • 势函数:\(b(\theta) = \frac{1}{2}\mu^2 = \frac{1}{2}\theta_1^2\)(仅与\(\theta\)有关)
    • 冗余项:\(c(y,\sigma) = \frac{1}{2}y^2 + \frac{\sigma^2}{2}\log(2\pi\sigma^2)\)(仅与\(y\)\(\sigma\)有关,与\(\theta\)无关)
    • 多余参数:\(\sigma^2\)(尺度参数),\(\phi=\sigma^{-2}\)(离散参数)

例2:伽马分布 \(Y \sim \Gamma(\lambda, \nu)\)(教材例1.5.9)

伽马分布常用于正偏态数据建模,我们关心均值\(\mu = \nu/\lambda\),形状参数\(\nu\)是多余参数。

  1. 原始密度函数(以均值\(\mu\)为参数改写):
    \(\mu = \nu/\lambda\)\(\lambda = \nu/\mu\),代入伽马密度:

    \[f(y;\mu,\nu) = \frac{(\nu/\mu)^\nu}{\Gamma(\nu)} y^{\nu-1} e^{-\frac{\nu}{\mu}y}, \quad y>0 \]

  2. 全部改写为指数形式,提取多余参数\(\nu\)
    把所有项展开为指数形式,把\(\nu\)提到括号外,得到教材中的形式:

    \[f(y;\mu,\nu) = \exp\left\{ \nu \left[ y(-\mu^{-1}) - \log\mu + \log y - \nu^{-1}\log y + \log\nu - \nu^{-1}\log\Gamma(\nu) \right] \right\} \]

  3. 对应定义拆解要素(离散参数形式\(\phi=\nu\)):
    • 有兴趣参数:\(\theta_1 = -\mu^{-1}\)(对应我们关心的均值\(\mu\)),\(y_1=y\)
    • 势函数:\(b(\theta) = \log\mu = -\log(-\theta_1)\)(仅与\(\theta\)有关)
    • 冗余项:\(c(y,\phi) = -\log y + \nu^{-1}\log y - \log\nu + \nu^{-1}\log\Gamma(\nu)\)(仅与\(y\)\(\phi=\nu\)有关)
    • 多余参数:\(\phi=\nu\)(离散参数),对应尺度参数\(\sigma^2=1/\nu\)

例3:逆高斯分布 \(Y \sim IG(\mu, \sigma^2)\)(教材例1.5.10)

逆高斯分布常用于极右偏的寿命数据建模,我们关心均值\(\mu\)\(\sigma^2\)是多余参数。

  1. 原始密度函数:

    \[f(y;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2 y^3}} \exp\left\{ -\frac{(y-\mu)^2}{2\sigma^2 \mu^2 y} \right\}, \quad y>0 \]

  2. 展开指数项,改写为定义形式:
    展开平方项,把前置系数改写为指数形式,合并后得到教材中的标准形式:

    \[f(y;\mu,\sigma^2) = \exp\left\{ \frac{ -y\mu^{-2}/2 + \mu^{-1} - y^{-1}/2 - \frac{\sigma^2}{2}\log(2\pi\sigma^2 y^3) }{\sigma^2} \right\} \]

  3. 对应定义拆解要素:
    • 有兴趣参数:\(\theta_1 = -(2\mu^2)^{-1}\)(对应均值\(\mu\)),\(y_1=y\)
    • 势函数:\(b(\theta) = -\mu^{-1} = -(-2\theta_1)^{\frac{1}{2}}\)(仅与\(\theta\)有关)
    • 冗余项:\(c(y,\sigma) = (2y)^{-1} + \frac{\sigma^2}{2}\log(2\pi\sigma^2 y^3)\)(仅与\(y\)\(\sigma\)有关)
    • 多余参数:\(\sigma^2\)(尺度参数)

4. 带尺度参数指数族的三大核心性质

这部分性质完全继承自然指数族的结构,同时明确了多余参数的影响,是广义线性模型的核心理论支撑。

性质1:特征函数与矩性质(均值、方差的统一形式)

(1)特征函数

\(Y \sim ED(\theta, \sigma^2)\),令\(\phi=\sigma^{-2}\),其特征函数为:

\[\varphi(t) = \exp\left\{ \phi \left[ b\left( \theta + \frac{it}{\phi} \right) - b(\theta) \right] \right\} \]

  • 与自然指数族的特征函数完全呼应:自然指数族是\(\phi=1\)的特例,此时\(\varphi(t)=\exp\{b(\theta+it)-b(\theta)\}\),完全一致。
  • 多余参数仅通过\(\phi\)影响特征函数的尺度,不改变势函数\(b(\theta)\)的核心作用。
(2)核心矩性质(教材式1.5.13)

\[\mathrm{E}(Y) = \dot{b}(\theta) = \mu, \quad \mathrm{Var}(Y) = \sigma^2 \ddot{b}(\theta) = \sigma^2 V \]

这是整个分布族最具实用价值的结论,我们逐句拆解:

  1. 均值仅由有兴趣参数决定\(\mathrm{E}(Y) = \dot{b}(\theta)\),和自然指数族完全一致,与多余参数\(\sigma^2\)完全无关。这正是我们定义这个分布族的核心目的——把我们关心的均值,完全聚焦到有兴趣参数\(\theta\)上,不受多余参数干扰。
  2. 方差的统一分解结构:方差=尺度参数\(\sigma^2\) × 方差函数\(V=\ddot{b}(\theta)\)
    • 方差函数\(V\)仅由均值\(\mu\)(即\(\theta\))决定,与多余参数无关,刻画了分布的均值-方差关系;
    • 尺度参数\(\sigma^2\)是全局的离散程度调整项,不改变均值-方差的关系结构。
经典分布的矩验证(对应教材)
分布 势函数\(b(\theta)\) 一阶导数\(\dot{b}(\theta)=\mu\) 二阶导数\(\ddot{b}(\theta)=V\) 方差\(\mathrm{Var}(Y)\)
正态分布 \(b(\theta)=\frac{1}{2}\theta^2\) \(\theta=\mu\) \(1\) \(\sigma^2 \times 1 = \sigma^2\)
伽马分布 \(b(\theta)=-\log(-\theta)\) \(-1/\theta=\mu\) \(1/\theta^2=\mu^2\) \(\sigma^2 \times \mu^2\)
逆高斯分布 \(b(\theta)=-(-2\theta)^{\frac{1}{2}}\) \((-2\theta)^{-1/2}=\mu\) \((-2\theta)^{-3/2}=\mu^3\) \(\sigma^2 \times \mu^3\)
泊松分布 \(b(\theta)=e^\theta\) \(e^\theta=\mu\) \(e^\theta=\mu\) \(1 \times \mu\)\(\phi=1\)无多余参数)

性质2:高阶中心矩的统一结构

令残差\(e = Y - \mu = Y - \mathrm{E}(Y)\),则其各阶中心矩有统一形式:

  • 二阶中心矩(协方差):\(\mathrm{E}(e_i e_j) = \sigma^2 V_{ij}, \quad V=\ddot{b}(\theta)\)
  • 三阶中心矩:\(\mathrm{E}(e_i e_j e_k) = \sigma^4 S_{ijk}, \quad S_{ijk} = \frac{\partial^3 b(\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k}\)
  • 四阶中心矩:\(\mathrm{E}(e_i e_j e_k e_l) = \sigma^4 (V_{ij}V_{kl} + V_{ik}V_{jl} + V_{il}V_{kj}) + \sigma^6 \Delta_{ijkl}, \quad \Delta_{ijkl} = \frac{\partial^4 b(\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k \partial \theta_l}\)

核心结论:所有高阶矩的结构,完全由势函数\(b(\theta)\)的各阶导数决定,多余参数仅贡献一个尺度因子,不改变矩的结构,完全延续了自然指数族的核心性质。

性质3:样本均值的分布性质(统计推断的核心)

\(Y_1,Y_2,\dots,Y_n\)独立同分布,且\(Y_1 \sim ED(\theta, \sigma^2)\),则样本均值\(\bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i\)服从:

\[\bar{Y} \sim ED\left( \theta, \frac{\sigma^2}{n} \right) \]

这个性质是参数估计、区间估计、假设检验的核心,我们完整讲解证明逻辑:

  1. 第一步:单个样本的特征函数
    由性质1,单个\(Y_i\)的特征函数为:

    \[\varphi_{Y_i}(t) = \exp\left\{ \phi \left[ b\left( \theta + \frac{it}{\phi} \right) - b(\theta) \right] \right\}, \quad \phi=\sigma^{-2} \]

  2. 第二步:样本均值的特征函数
    由独立随机变量的特征函数性质,\(\bar{Y}\)的特征函数为:

    \[\varphi_{\bar{Y}}(t) = \mathrm{E}\left( e^{it^\mathrm{T} \bar{Y}} \right) = \prod_{i=1}^n \mathrm{E}\left( e^{it^\mathrm{T} Y_i /n} \right) = \left[ \varphi_{Y_i}\left( \frac{t}{n} \right) \right]^n \]

  3. 第三步:代入化简,匹配EDM形式
    把单个特征函数代入,展开得:

    \[\varphi_{\bar{Y}}(t) = \left[ \exp\left\{ \phi \left[ b\left( \theta + \frac{it}{n\phi} \right) - b(\theta) \right] \right\} \right]^n = \exp\left\{ n\phi \left[ b\left( \theta + \frac{it}{n\phi} \right) - b(\theta) \right] \right\} \]

    令新的离散参数\(\phi' = n\phi = n/\sigma^2\),对应新的尺度参数\(\sigma'^2 = 1/\phi' = \sigma^2/n\),则特征函数可改写为:

    \[\varphi_{\bar{Y}}(t) = \exp\left\{ \phi' \left[ b\left( \theta + \frac{it}{\phi'} \right) - b(\theta) \right] \right\} \]

    这正是\(ED(\theta, \sigma^2/n)\)的特征函数,由特征函数与分布的一一对应性,得证。

直观解读:样本均值的有兴趣参数\(\theta\)不变(均值不变),尺度参数缩小为原来的\(1/n\)(方差缩小为原来的\(1/n\)),和我们熟知的正态分布样本均值性质完全一致,且推广到了整个EDM族。


三、第二类推广:子集参数情形的指数族

这一类推广解决的核心问题是:当自然参数包含多余参数时,如何消除多余参数的干扰,对目标参数做统计推断,是条件推断、Fisher精确检验、带冗余参数假设检验的理论基础。

1. 正式定义(教材式1.5.14)

对于自然形式的指数族,我们将自然参数和对应的充分统计量,拆分为「有兴趣参数+对应充分统计量」和「多余参数+对应充分统计量」两个子集,密度函数可表示为:

\[X \sim f(x;\theta,\varphi) = h(x) \exp\left\{ \sum_{i=1}^m \theta_i U_i(x) + \sum_{j=1}^l \varphi_j T_j(x) - b(\theta,\varphi) \right\} \]

核心要素拆解

符号 核心含义 维度
\(\theta = (\theta_1,\dots,\theta_m)^\mathrm{T}\) 有兴趣参数(目标推断参数) \(m\)
\(\varphi = (\varphi_1,\dots,\varphi_l)^\mathrm{T}\) 多余参数(冗余参数) \(l\)
\(U(x) = (U_1(x),\dots,U_m(x))^\mathrm{T}\) 对应有兴趣参数\(\theta\)的充分统计量 \(m\)
\(T(x) = (T_1(x),\dots,T_l(x))^\mathrm{T}\) 对应多余参数\(\varphi\)的充分统计量 \(l\)
\(b(\theta,\varphi)\) 势函数(归一化项) \(\theta\)\(\varphi\)均有关

本质说明:这个形式本质上还是自然形式的指数族,只是对参数和充分统计量做了子集拆分,我们的核心目标是:在有多余参数\(\varphi\)的情况下,找到仅与\(\theta\)有关的分布,实现对\(\theta\)的无干扰推断。


2. 核心定理1.5.3 与证明

这个定理是整个子集参数情形的灵魂,直接给出了消除多余参数的方法。

定理完整内容

在上述子集参数的假设下,有以下三个结论:

  1. 联合分布:充分统计量\((U,T)\)的联合分布仍为指数族:

    \[p(u,t;\theta,\varphi) = h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i + \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\} \]

  2. 边缘分布\(U\)\(T\)的边缘分布分别为:

    \[p(u;\theta,\varphi) = h_\varphi(u) \exp\left\{ \sum_{i=1}^m \theta_i u_i - b(\theta,\varphi) \right\} \]

    \[p(t;\theta,\varphi) = h_\theta(t) \exp\left\{ \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\} \]

  3. 核心结论(条件分布的无冗余性):条件分布\(U|T\)仅与有兴趣参数\(\theta\)有关,与多余参数\(\varphi\)完全无关,其形式为:

    \[p(u|t;\theta,\varphi) = h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i - b_t^*(\theta) \right\} \tag{1.5.15} \]


定理证明(逐行拆解,讲透核心逻辑)

  1. 联合分布的证明
    由自然指数族的核心性质(充分统计量的分布仍为指数族),\((U,T)\)是参数\((\theta,\varphi)\)的联合充分统计量,因此其联合分布必然保持指数族的形式,与原分布结构一致,得证。

  2. 边缘分布的证明
    \(T\)的边缘分布为例,边缘分布是联合分布对\(u\)积分的结果:

    \[p(t;\theta,\varphi) = \int p(u,t;\theta,\varphi) du \]

    代入联合分布的形式,把与\(u\)无关的项提到积分外:

    \[p(t;\theta,\varphi) = \exp\left\{ \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\} \cdot \int h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i \right\} du \]

    令积分结果\(h_\theta(t) = \int h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i \right\} du\),则得到教材中的边缘分布形式,\(U\)的边缘分布同理可证。

  3. 核心结论:条件分布与多余参数无关的证明
    条件分布的定义是:\(p(u|t) = \frac{p(u,t)}{p(t)}\),我们把联合分布和\(T\)的边缘分布代入:

    \[p(u|t) = \frac{ h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i + \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\} }{ h_\theta(t) \exp\left\{ \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\} } \]

    分子分母中,与多余参数\(\varphi\)有关的项\(\sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi)\)完全抵消
    剩下的项整理为:

    \[p(u|t) = \frac{h^*(u,t)}{h_\theta(t)} \exp\left\{ \sum_{i=1}^m \theta_i u_i \right\} \]

    \(b_t^*(\theta) = \log h_\theta(t)\),把分母的项放到指数内,就得到教材中的标准形式:

    \[p(u|t) = h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i - b_t^*(\theta) \right\} \]

    整个表达式中,完全没有多余参数\(\varphi\),仅与有兴趣参数\(\theta\)有关,得证。


定理的核心价值与经典应用

这个定理的伟大之处在于:它给出了消除多余参数的通用方法——以对应多余参数的充分统计量为条件,得到的条件分布完全不含多余参数,我们可以直接在这个条件分布中对目标参数做推断,完全不用关心多余参数的取值

最经典的应用就是Fisher精确检验

  • 场景:两个二项分布\(X \sim Bin(n,p_1)\)\(Y \sim Bin(m,p_2)\),检验\(H_0:p_1=p_2=p\),此时共同的成功率\(p\)是多余参数。
  • 对应子集参数:有兴趣参数是\(p_1-p_2\),多余参数是\(p\),对应多余参数的充分统计量是\(T=X+Y\)
  • 由定理1.5.3,条件分布\(X|T\)服从超几何分布,完全与多余参数\(p\)无关,因此我们可以直接基于超几何分布做检验,无需知道\(p\)的取值,这就是Fisher精确检验的理论来源。

四、两类推广的总结与对比

推广类型 核心结构 解决的核心问题 核心应用场景 与自然指数族的关系
带尺度参数的指数族(EDM) 多余参数作为离散系数,放在指数外,保持\(\theta\)\(y\)的线性结构 把有多余尺度参数的分布,统一为「均值仅由目标参数决定、方差为尺度×方差函数」的标准形式 广义线性模型(GLM)、回归建模、均值建模 自然指数族是\(\phi=1\)的特例
子集参数情形的指数族 把自然参数和充分统计量拆分为两个子集,保持自然指数族的结构 消除多余参数的干扰,实现对目标参数的无偏推断 带冗余参数的假设检验、条件推断、Fisher精确检验 本质上仍是自然形式的指数族,仅做参数拆分

五、最终总结

带有多余参数的指数族,是自然指数族从「理论优美」到「实用落地」的关键一步:

  1. 它把统计学中绝大多数常用分布,都纳入了统一的分析框架,无论是正态、伽马、逆高斯这类带尺度参数的分布,还是泊松、伯努利这类无尺度参数的分布,都可以用统一的形式表达、统一的方法分析;
  2. 它彻底解决了实际统计问题中最常见的「多余参数」难题,无论是回归建模中对均值的聚焦,还是假设检验中对冗余参数的消除,都有了严谨的理论支撑;
  3. 它是整个现代参数统计学的核心基石,广义线性模型、生存分析、实验设计、纵向数据分析等几乎所有参数统计方法,都建立在这个理论之上。

带有多余参数的指数族 完整归纳总结表

以下表格严格对应教材定义、定理、实例与核心性质,兼顾理论严谨性与实用性,分6个模块完整归纳。


表1 两类带多余参数的指数族 核心定义与定位总表

推广类型 标准记号 核心密度公式 核心定位 解决的核心问题 核心应用场景 与自然指数族的关系
带有尺度参数的指数族(指数离散分布族) \(Y \sim ED(\theta, \sigma^2)\) 尺度形式:\(f(y;\theta,\sigma) = \exp\left\{ \frac{\theta^\mathrm{T} y - b(\theta) - c(y,\sigma)}{\sigma^2} \right\}\)
离散形式:\(f(y;\theta,\phi) = \exp\left\{ \phi \left[ \theta^\mathrm{T} y - b(\theta) - c(y,\phi) \right] \right\}\)
\(\phi=\sigma^{-2}\)
广义线性模型(GLM)的核心理论基石,带尺度参数分布的统一分析框架 分离「均值建模的目标参数」与「仅影响离散程度的多余参数」,让均值仅由目标参数决定,不受多余参数干扰 广义线性回归、连续/离散型响应变量建模、生物统计、计量经济学 自然形式指数族是其特例(\(\phi=1\),即\(\sigma^2=1\),无多余参数)
子集参数情形的指数族 无统一记号,沿用自然指数族框架 \(f(x;\theta,\varphi) = h(x) \exp\left\{ \sum_{i=1}^m \theta_i U_i(x) + \sum_{j=1}^l \varphi_j T_j(x) - b(\theta,\varphi) \right\}\) 带冗余参数的假设检验、条件推断的核心理论支撑 消除多余参数对目标参数推断的干扰,得到仅与目标参数有关的分布 Fisher精确检验、带冗余参数的区间估计、条件推断、列联表分析 本质仍是自然形式的指数族,仅对自然参数和充分统计量做子集拆分

表2 带尺度参数的指数族(EDM)核心要素拆解表

形式类型 核心符号 符号名称 核心含义 关键约束与说明
尺度参数形式(教材式1.5.12)
\(f(y;\theta,\sigma) = \exp\left\{ \frac{\theta^\mathrm{T} y - b(\theta) - c(y,\sigma)}{\sigma^2} \right\}\)
\(\theta\) 有兴趣参数(目标参数) 我们核心要推断的参数,唯一决定分布的均值 \(k\)维向量,与响应变量\(y\)同维度,仅参与和\(y\)的线性组合
\(\sigma\) 尺度参数(多余参数) 仅影响分布的离散程度,不改变均值结构 非负实数,是我们不关心但必须纳入的冗余参数
\(b(\theta)\) 势函数(对数配分函数) 决定分布的均值、方差结构,是矩性质的核心载体 仅与有兴趣参数\(\theta\)有关,与多余参数\(\sigma\)完全无关,继承自然指数族势函数的所有性质
\(c(y,\sigma)\) 冗余项 吸收所有与目标参数\(\theta\)无关的项,保证\(\theta\)\(y\)的纯线性结构 仅与响应变量\(y\)、尺度参数\(\sigma\)有关,与\(\theta\)完全无关
离散参数等价形式
\(f(y;\theta,\phi) = \exp\left\{ \phi \left[ \theta^\mathrm{T} y - b(\theta) - c(y,\phi) \right] \right\}\)
\(\phi = \sigma^{-2}\) 离散参数(多余参数) 尺度参数的倒数,适配自然指数族的指数结构 非负实数,\(\phi\)越大,分布离散程度越小,与\(\sigma\)一一对应
\(c(y,\phi)\) 冗余项 对应离散参数形式的无关项 仅与\(y\)\(\phi\)有关,与\(\theta\)完全无关
通用记号 \(ED(\theta, \sigma^2)\) 指数离散分布族标准记号 带尺度参数的指数族的标准简称 第一个参数为有兴趣参数\(\theta\),第二个参数为尺度参数\(\sigma^2\)

表3 经典分布的EDM形式对照表(对应教材3个核心实例)

分布类型 原始密度核心形式 有兴趣参数\(\theta\) 势函数\(b(\theta)\) 方差函数\(V=\ddot{b}(\theta)\) 多余参数 方差\(\mathrm{Var}(Y)\) 对应教材实例
正态分布\(N(\mu, \sigma^2)\) \(f(y) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(y-\mu)^2}{2\sigma^2} \right\}\) \(\theta = \mu\) \(b(\theta) = \frac{1}{2}\theta^2\) \(V=1\) 尺度参数\(\sigma^2\) \(\sigma^2 \times 1 = \sigma^2\) 例1.5.8
伽马分布\(\Gamma(\lambda, \nu)\)
(均值\(\mu=\nu/\lambda\)
\(f(y) = \frac{(\nu/\mu)^\nu}{\Gamma(\nu)} y^{\nu-1} e^{-\frac{\nu}{\mu}y}\) \(\theta = -\mu^{-1}\) \(b(\theta) = -\log(-\theta)\) \(V=\mu^2\) 离散参数\(\phi=\nu\)
\(\sigma^2=1/\nu\)
\(\sigma^2 \times \mu^2\) 例1.5.9
逆高斯分布\(IG(\mu, \sigma^2)\) \(f(y) = \frac{1}{\sqrt{2\pi\sigma^2 y^3}} \exp\left\{ -\frac{(y-\mu)^2}{2\sigma^2 \mu^2 y} \right\}\) \(\theta = -(2\mu^2)^{-1}\) \(b(\theta) = -(-2\theta)^{\frac{1}{2}}\) \(V=\mu^3\) 尺度参数\(\sigma^2\) \(\sigma^2 \times \mu^3\) 例1.5.10
泊松分布\(Pois(\mu)\) \(f(y) = \frac{\mu^y e^{-\mu}}{y!}\) \(\theta = \log\mu\) \(b(\theta) = e^\theta\) \(V=\mu\) 无多余参数(\(\phi=1\) \(\mu\) 教材补充对照

表4 带尺度参数的指数族(EDM)核心性质汇总表

性质分类 数学公式 核心结论 证明核心逻辑 核心应用价值
特征函数 \(\varphi(t) = \exp\left\{ \phi \left[ b\left( \theta + \frac{it}{\phi} \right) - b(\theta) \right] \right\}\)
\(\phi=\sigma^{-2}\)
分布完全由势函数\(b(\theta)\)和离散参数\(\phi\)唯一确定,与自然指数族特征函数结构完全一致 1. 特征函数定义\(\varphi(t)=\mathrm{E}[e^{it^\mathrm{T}Y}]\)
2. 代入密度函数,凑出势函数的归一化形式;
3. 利用密度积分等于1化简
1. 快速求解分布的特征函数;
2. 证明样本均值的分布性质;
3. 验证分布的唯一性
一二阶核心矩性质 期望:\(\mathrm{E}(Y) = \dot{b}(\theta) = \mu\)
方差:\(\mathrm{Var}(Y) = \sigma^2 \ddot{b}(\theta) = \sigma^2 V\)
1. 分布的均值仅由有兴趣参数\(\theta\)决定,与多余参数完全无关;
2. 方差可统一分解为「尺度参数×方差函数」,方差函数仅由均值决定
1. 利用密度归一化等式对\(\theta\)求导;
2. 交换求导与积分顺序(解析性保证);
3. 结合期望的定义化简
1. 广义线性模型的正则连接函数、方差函数的核心来源;
2. 无需复杂积分,直接通过势函数求导得到均值和方差;
3. 统一所有EDM分布的矩计算逻辑
高阶中心矩性质 二阶矩:\(\mathrm{E}(e_i e_j) = \sigma^2 V_{ij}, \ V=\ddot{b}(\theta)\)
三阶矩:\(\mathrm{E}(e_i e_j e_k) = \sigma^4 S_{ijk}, \ S_{ijk}=\frac{\partial^3 b(\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k}\)
四阶矩:\(\mathrm{E}(e_i e_j e_k e_l) = \sigma^4 (V_{ij}V_{kl} + V_{ik}V_{jl} + V_{il}V_{kj}) + \sigma^6 \Delta_{ijkl}, \ \Delta_{ijkl}=\frac{\partial^4 b(\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k \partial \theta_l}\)
\(e=Y-\mu\)为残差)
所有高阶矩的结构完全由势函数\(b(\theta)\)的各阶导数决定,多余参数仅贡献尺度因子,不改变矩的核心结构 对归一化等式逐次求导,结合期望的定义逐步化简 1. 求解分布的高阶矩、偏度、峰度;
2. 大样本推断、渐近性质分析;
3. 模型诊断与异常值检验
样本均值的分布性质 \(Y_1,\dots,Y_n \overset{i.i.d.}{\sim} ED(\theta, \sigma^2)\),则样本均值\(\bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i \sim ED\left( \theta, \frac{\sigma^2}{n} \right)\) 1. 样本均值的有兴趣参数\(\theta\)不变(均值不变);
2. 尺度参数缩小为原来的\(1/n\)(方差缩小为原来的\(1/n\));
3. 样本均值仍服从同类型的EDM分布
1. 独立随机变量特征函数的乘积性质;
2. 代入单个样本的特征函数化简;
3. 匹配EDM特征函数的标准形式,由唯一性得证
1. 参数的点估计、区间估计;
2. 均值的假设检验;
3. 大样本统计推断的理论支撑

表5 子集参数情形的指数族 核心要素与定理汇总表

5.1 核心要素拆解

符号 符号名称 维度 核心含义 关键约束
\(\theta = (\theta_1,\dots,\theta_m)^\mathrm{T}\) 有兴趣参数(目标参数) \(m\) 我们核心要推断、检验的参数 自然参数的子集,对应充分统计量\(U(x)\)
\(\varphi = (\varphi_1,\dots,\varphi_l)^\mathrm{T}\) 多余参数(讨厌参数) \(l\) 不关心、但会影响分布的冗余参数 自然参数的子集,对应充分统计量\(T(x)\)
\(U(x) = (U_1(x),\dots,U_m(x))^\mathrm{T}\) 目标参数对应的充分统计量 \(m\) 承载目标参数\(\theta\)全部信息的统计量 仅与样本\(x\)有关,与参数无关
\(T(x) = (T_1(x),\dots,T_l(x))^\mathrm{T}\) 多余参数对应的充分统计量 \(l\) 承载多余参数\(\varphi\)全部信息的统计量 仅与样本\(x\)有关,与参数无关
\(b(\theta,\varphi)\) 势函数(归一化项) 标量 保证密度归一化的核心项 \(\theta\)\(\varphi\)均有关
\(h(x)\) 基础测度项 标量 定义分布的支撑集,与参数无关 非负可测,仅与样本\(x\)有关

5.2 核心定理1.5.3 完整汇总

定理结论 数学公式 核心结论 证明核心逻辑 核心应用价值
联合分布 \(p(u,t;\theta,\varphi) = h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i + \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\}\) 充分统计量\((U,T)\)的联合分布仍为自然形式的指数族,结构与原分布完全一致 由自然指数族的核心性质:充分统计量的分布仍为指数族,直接可得 为边缘分布、条件分布的推导提供基础
边缘分布 \(U\)的边缘分布:\(p(u;\theta,\varphi) = h_\varphi(u) \exp\left\{ \sum_{i=1}^m \theta_i u_i - b(\theta,\varphi) \right\}\)
\(T\)的边缘分布:\(p(t;\theta,\varphi) = h_\theta(t) \exp\left\{ \sum_{j=1}^l \varphi_j t_j - b(\theta,\varphi) \right\}\)
单个充分统计量的边缘分布仍保持指数族结构,但仍同时包含\(\theta\)\(\varphi\),无法消除多余参数 对联合分布做积分,将与积分变量无关的项提出积分外,合并吸收与积分变量有关的项 验证充分统计量的分布性质,为条件分布推导提供基础
核心结论:条件分布 \(p(u|t;\theta,\varphi) = h^*(u,t) \exp\left\{ \sum_{i=1}^m \theta_i u_i - b_t^*(\theta) \right\}\) 条件分布\(U|T\)仅与有兴趣参数\(\theta\)有关,与多余参数\(\varphi\)完全无关,且仍为自然形式的指数族 1. 条件分布定义:\(p(u|t)=p(u,t)/p(t)\)
2. 代入联合分布与边缘分布,分子分母中与\(\varphi\)有关的项完全抵消;
3. 整理为自然指数族的标准形式
1. 彻底解决多余参数的干扰问题,无需知道多余参数的取值,即可对目标参数做推断;
2. Fisher精确检验、条件推断的核心理论支撑;
3. 带冗余参数的假设检验、区间估计的通用方法

表6 两类带多余参数的指数族 核心差异与适用场景对比表

对比维度 带尺度参数的指数族(EDM) 子集参数情形的指数族
核心结构 多余参数作为离散系数放在指数外,保持\(\theta\)\(y\)的纯线性结构 把自然参数和充分统计量拆分为两个子集,完全保留自然指数族的结构
多余参数的位置 不参与指数内的线性组合,仅作为全局尺度因子 与目标参数并列,同为自然参数的一部分,参与指数内的线性组合
均值的决定因素 仅由有兴趣参数\(\theta\)决定,与多余参数完全无关 均值同时与目标参数、多余参数均有关
核心优势 统一了带尺度参数分布的均值-方差结构,适配回归建模需求 提供了消除多余参数的通用方法,适配假设检验与条件推断需求
核心适用场景 广义线性模型、回归分析、均值建模、响应变量分布拟合 带冗余参数的假设检验、条件推断、列联表分析、Fisher精确检验
经典案例 正态线性回归、伽马回归、逆高斯回归、泊松回归 二项分布两样本率比较的Fisher精确检验、列联表独立性检验
与自然指数族的关系 是自然指数族的推广,自然指数族是其无多余参数的特例 本质仍是自然指数族,仅做参数与充分统计量的子集拆分

表7 核心符号规范说明表

符号 数学含义 备注说明
\(\theta\) 有兴趣参数(目标参数) 两类推广中均为我们核心要推断的参数
\(\sigma\) 尺度参数 带尺度参数指数族中的多余参数,非负实数
\(\phi = \sigma^{-2}\) 离散参数 尺度参数的倒数,适配指数族的指数结构
\(\varphi\) 子集参数情形中的多余参数 自然参数的子集,与目标参数\(\theta\)并列
\(b(\theta)\) 势函数(对数配分函数) 仅与目标参数\(\theta\)有关,决定分布的矩结构
\(c(y,\sigma)\)/\(c(y,\phi)\) 冗余项 仅与响应变量、多余参数有关,与目标参数无关
\(U(x)\) 目标参数对应的充分统计量 子集参数情形中,承载\(\theta\)全部信息的统计量
\(T(x)\) 多余参数对应的充分统计量 子集参数情形中,承载\(\varphi\)全部信息的统计量
\(ED(\theta, \sigma^2)\) 指数离散分布族标准记号 带尺度参数的指数族的标准简称
\(\dot{b}(\theta)\) \(b(\theta)\)的一阶梯度 对应分布的均值
\(\ddot{b}(\theta)\) \(b(\theta)\)的二阶Hessian矩阵 对应分布的方差函数
\(\mu\) 分布的均值 \(\mu = \mathrm{E}(Y) = \dot{b}(\theta)\)
\(V\) 方差函数 \(V = \ddot{b}(\theta)\),仅由均值决定

posted on 2026-02-19 20:58  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航