昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

1.5.2自然形式的指数族

自然形式的指数族 完整深度讲解

各位同学,今天我们用数理统计研究的视角,把「自然形式的指数族」这个数理统计核心基石知识点,从引入动机、核心定义、定理证明、本质性质、实例验证五个维度,拆解得明明白白,不留任何逻辑断点。


一、引入:为什么要定义「自然形式的指数族」?

在讲自然形式之前,我们先回顾一般指数族的通用形式

\[f(x,\theta) = h(x) \exp\left\{ \sum_{i=1}^k Q_i(\theta) T_i(x) - b(\theta) \right\} \]

这个形式里,我们拆解4个核心部分:

  • \(h(x)\):仅与随机变量\(x\)相关的非负基础测度项,定义分布的支撑集;
  • \(Q_i(\theta)\):原始参数\(\theta\)的函数,是参数的非线性变换;
  • \(T_i(x)\):仅与\(x\)相关的充分统计量,承载样本中关于参数的全部信息;
  • \(b(\theta)\):归一化的势函数(对数配分函数),保证密度积分/求和为1。

核心痛点与优化动机

一般指数族的指数部分,是参数的函数\(Q_i(\theta)\)充分统计量\(T_i(x)\)的乘积,不是参数本身与统计量的线性组合。而统计学中,线性结构是性质最优良、计算最简便、推断最稳定的结构——不管是求矩、参数估计、假设检验,线性结构都能极大简化问题。

因此我们做一个最自然的参数替换:令\(\tilde{\theta}_i = Q_i(\theta)\),把原来的参数函数\(Q(\theta)\)直接定义为新的参数,这个新参数就叫自然参数(典范参数)

替换后,指数部分就变成了自然参数\(\tilde{\theta}\)与充分统计量\(T(x)\)的纯线性组合,这就是「自然形式指数族」的核心来源,也是它被称为「自然」的原因。


二、自然形式指数族的正式定义与核心要素拆解

定义1.5.3 自然形式的指数族

若随机变量\(X\)的概率密度/质量函数(关于某\(\sigma\)有限测度\(\mu\),如离散计数测度、连续勒贝格测度)可表示为:

\[f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\} \tag{1.5.2} \]

则称该分布族为自然形式的指数族

逐要素深度拆解(每个符号的意义与约束)

  1. 自然参数向量\(\theta\)
    \(\theta = (\theta_1, \theta_2, \dots, \theta_k)^\mathrm{T} \in \mathbb{R}^k\),是\(k\)维实值参数,也就是我们通过参数替换得到的自然参数。它不再是原始分布的常规参数(比如泊松分布的\(\lambda\)、正态分布的\(\mu\)),而是经过变换后、能和充分统计量形成线性组合的参数。

  2. 充分统计量向量\(T(x)\)
    \(T(x) = (T_1(x), T_2(x), \dots, T_k(x))^\mathrm{T}\),是\(k\)维仅与\(x\)相关的统计量。根据因子分解定理,它是该分布族的充分统计量——包含了样本中关于参数\(\theta\)的全部信息,统计推断中仅需用\(T(x)\)即可,无需原始样本,这是指数族的核心价值之一。

  3. 极小、满秩的指数族
    定义补充:若\(1, T_1(x), T_2(x), \dots, T_k(x)\)线性无关,则称该指数族为极小、满秩的

    • 线性无关的含义:不存在不全为0的常数\(c_0,c_1,\dots,c_k\),使得\(c_0 + \sum_{i=1}^k c_i T_i(x) = 0\)在支撑集上几乎处处成立。
    • 本质意义:保证参数维度无冗余,\(k\)是能描述该分布族的最小参数维度,避免参数冗余带来的非唯一性问题。
  4. 基础测度项\(h(x)\)
    非负可测函数,\(h(x) \geq 0\),仅与\(x\)相关、与参数\(\theta\)无关。它定义了分布的支撑集(\(f(x,\theta)>0\)\(x\)的范围),且支撑集与参数\(\theta\)无关——这是指数族的核心特征,比如均匀分布\(U(0,\theta)\)的支撑集与\(\theta\)相关,因此它不属于指数族。

  5. 势函数(对数配分函数)\(b(\theta)\)
    这是整个定义的核心归一化项,也是后续所有矩性质的核心载体。
    由密度的归一化条件\(\int f(x,\theta) d\mu(x) = 1\),将(1.5.2)代入可得:

    \[\int h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\} d\mu(x) = 1 \]

    把与\(x\)无关的\(\exp\{-b(\theta)\}\)提出积分外,两边取对数,直接得到\(b(\theta)\)的定义式:

    \[b(\theta) = \log\left( \int h(x) e^{\theta^\mathrm{T} T(x)} d\mu(x) \right) \tag{1.5.4} \]

    它的本质是:对\(h(x)e^{\theta^\mathrm{T} T(x)}\)的积分(统计物理中的配分函数)取对数,因此叫对数配分函数;又因为它的各阶导数直接对应充分统计量的各阶矩,因此也叫势函数。

  6. 自然参数空间\(\Theta\)
    定义为:

    \[\Theta = \left\{ \theta \in \mathbb{R}^k : \int h(x) e^{\theta^\mathrm{T} T(x)} d\mu(x) < +\infty \right\} \subset \mathbb{R}^k \tag{1.5.3} \]

    本质意义:所有能让配分函数积分收敛的自然参数\(\theta\)的集合。只有\(\theta \in \Theta\)时,\(b(\theta)\)有限,密度函数才是合法、良定义的。

简化标准形式

若令\(T_i(x)=y_i\)(即\(T(x)=Y\)),则得到自然指数族的标准形式:

\[f(y,\theta) = h(y) \exp\left\{ \theta^\mathrm{T} y - b(\theta) \right\} \tag{1.5.5} \]

我们常见的正态、泊松、二项、伯努利、指数、伽马分布,都可以写成这个标准形式。


三、核心定理1.5.1:自然参数空间的凸性与势函数的严格凸性

定理内容

自然参数空间\(\Theta\)必然是\(\mathbb{R}^k\)上的凸集,势函数\(b(\theta)\)\(\Theta\)上的严格凸函数。

前置预备知识

  1. 凸集定义:对集合\(\Theta\),任意\(\theta_{(1)},\theta_{(2)} \in \Theta\),任意\(\lambda \in (0,1)\),都有\(\lambda \theta_{(1)} + (1-\lambda)\theta_{(2)} \in \Theta\),即集合内任意两点的连线完全落在集合内。
  2. 凸函数定义:对函数\(b(\theta)\),任意\(\theta_{(1)},\theta_{(2)} \in \Theta\),任意\(\lambda \in (0,1)\),都有\(b(\lambda \theta_{(1)} + (1-\lambda)\theta_{(2)}) \leq \lambda b(\theta_{(1)}) + (1-\lambda) b(\theta_{(2)})\);严格凸函数则要求不等号为严格小于(\(\theta_{(1)} \neq \theta_{(2)}\)时)。
  3. 赫尔德不等式:对非负可测函数\(u,v\),共轭指数\(p>1, 1/p+1/q=1\),有

    \[\int u(x)v(x) d\mu(x) \leq \left( \int u(x)^p d\mu(x) \right)^{1/p} \left( \int v(x)^q d\mu(x) \right)^{1/q} \]

    本次证明取\(p=1/\lambda, q=1/(1-\lambda)\),满足\(1/p+1/q=1\)

第一部分:证明\(\Theta\)是凸集

目标:对任意\(\theta_{(1)},\theta_{(2)} \in \Theta\)\(\lambda \in (0,1)\),证明\(\theta_\lambda = \lambda \theta_{(1)} + (1-\lambda)\theta_{(2)} \in \Theta\)
根据\(\Theta\)的定义,只需证明:

\[a = \int h(x) e^{\theta_\lambda^\mathrm{T} T(x)} d\mu(x) < +\infty \]

  1. 拆分指数项:

    \[\theta_\lambda^\mathrm{T} T(x) = \lambda \theta_{(1)}^\mathrm{T} T(x) + (1-\lambda) \theta_{(2)}^\mathrm{T} T(x) \]

    因此\(e^{\theta_\lambda^\mathrm{T} T(x)} = e^{\lambda \theta_{(1)}^\mathrm{T} T(x)} \cdot e^{(1-\lambda) \theta_{(2)}^\mathrm{T} T(x)}\)

  2. 改写积分式,适配赫尔德不等式:
    利用\(h(x) = h(x)^\lambda \cdot h(x)^{1-\lambda}\),将\(a\)改写为:

    \[a = \int \left[ h(x) e^{\theta_{(1)}^\mathrm{T} T(x)} \right]^\lambda \cdot \left[ h(x) e^{\theta_{(2)}^\mathrm{T} T(x)} \right]^{1-\lambda} d\mu(x) \]

  3. 应用赫尔德不等式:

    \[a \leq \left( \int h(x) e^{\theta_{(1)}^\mathrm{T} T(x)} d\mu(x) \right)^\lambda \cdot \left( \int h(x) e^{\theta_{(2)}^\mathrm{T} T(x)} d\mu(x) \right)^{1-\lambda} \]

  4. 利用\(\theta_{(1)},\theta_{(2)} \in \Theta\)的条件:
    因为\(\theta_{(1)},\theta_{(2)} \in \Theta\),所以两个积分均为有限值,有限正数的幂次乘积仍为有限值,因此\(a < +\infty\),即\(\theta_\lambda \in \Theta\)
    凸集得证。


第二部分:证明\(b(\theta)\)\(\Theta\)上的严格凸函数

目标:对任意\(\theta_{(1)} \neq \theta_{(2)} \in \Theta\)\(\lambda \in (0,1)\),证明

\[b(\lambda \theta_{(1)} + (1-\lambda)\theta_{(2)}) < \lambda b(\theta_{(1)}) + (1-\lambda) b(\theta_{(2)}) \]

  1. 写出\(b(\theta_\lambda)\)的定义式:

    \[b(\theta_\lambda) = \log\left( \int h(x) e^{\theta_\lambda^\mathrm{T} T(x)} d\mu(x) \right) \]

    同前一步,将积分改写为赫尔德形式:

    \[\int h(x) e^{\theta_\lambda^\mathrm{T} T(x)} d\mu(x) = \int \left[ h(x) e^{\theta_{(1)}^\mathrm{T} T(x)} \right]^\lambda \cdot \left[ h(x) e^{\theta_{(2)}^\mathrm{T} T(x)} \right]^{1-\lambda} d\mu(x) \]

  2. 应用赫尔德不等式,两边取对数:
    对数函数是严格单调递增的,因此不等号方向不变:

    \[b(\theta_\lambda) \leq \log\left[ \left( \int h(x) e^{\theta_{(1)}^\mathrm{T} T(x)} d\mu(x) \right)^\lambda \cdot \left( \int h(x) e^{\theta_{(2)}^\mathrm{T} T(x)} d\mu(x) \right)^{1-\lambda} \right] \]

  3. 利用对数性质展开右边:

    \[\log\left[ A^\lambda B^{1-\lambda} \right] = \lambda \log A + (1-\lambda) \log B = \lambda b(\theta_{(1)}) + (1-\lambda) b(\theta_{(2)}) \]

    因此得到\(b(\theta_\lambda) \leq \lambda b(\theta_{(1)}) + (1-\lambda) b(\theta_{(2)})\)

  4. 证明严格凸性(等号不成立):
    赫尔德不等式的等号成立条件是:存在常数\(c>0\),使得\(h(x) e^{\theta_{(1)}^\mathrm{T} T(x)} = c \cdot h(x) e^{\theta_{(2)}^\mathrm{T} T(x)}\)几乎处处成立。
    约去非负的\(h(x)\),两边取对数得:\((\theta_{(1)} - \theta_{(2)})^\mathrm{T} T(x) = \log c\),即存在常数\(c_0\),使得\(c_0 + (\theta_{(1)} - \theta_{(2)})^\mathrm{T} T(x) = 0\)几乎处处成立。

    而我们的指数族是极小、满秩的,\(1,T_1(x),\dots,T_k(x)\)线性无关,因此只有当\(\theta_{(1)} - \theta_{(2)} = 0\)(即\(\theta_{(1)}=\theta_{(2)}\))时,等号才成立。
    因此当\(\theta_{(1)} \neq \theta_{(2)}\)时,不等号严格成立,\(b(\theta)\)是严格凸函数。


该定理的核心意义

  1. 参数估计的理论基础:自然参数空间是凸集,势函数严格凸,意味着指数族的对数似然函数是严格凹函数(凸函数的相反数是凹函数),极大似然估计(MLE)有唯一的全局最优解,无局部最优问题——这是广义线性模型(GLM)的核心理论支撑。
  2. 协方差矩阵的正定性:严格凸函数的Hessian矩阵是正定的,而后续我们会证明,Hessian矩阵就是充分统计量的协方差矩阵,正定意味着充分统计量无线性冗余,与满秩条件完全呼应。

四、定理1.5.2:势函数的解析性

定理内容

\(g(x)\)在样本空间上可测,且\(G(\theta) = \int g(x) e^{\theta^\mathrm{T} T(x)} d\mu(x)\)存在(有限),则\(G(\theta)\)在自然参数空间\(\Theta\)的内部解析。特别地,\(b(\theta)\)\(\Theta\)的内部解析。

核心解读

  1. 解析函数的意义:解析函数在定义域内任意阶可导,且求导与积分运算可以交换顺序——这是我们后续通过求导得到矩性质的核心前提,没有解析性,就不能随意交换求导和积分的顺序。
  2. 本质:该定理是拉普拉斯变换的核心性质,\(G(\theta)\)本质是\(g(x)h(x)\)关于\(T(x)\)的拉普拉斯变换,拉普拉斯变换在收敛域内必然解析,证明可参考陈希孺《数理统计引论》。

五、自然形式指数族的三大核心性质

性质1:特征函数由势函数唯一确定

结论

\(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} x - b(\theta) \right\}\)(标准自然指数族,\(T(x)=x\)),则\(X\)的特征函数为:

\[\varphi(t) = \exp\left\{ b(\theta + it) - b(\theta) \right\} \tag{1.5.6} \]

其中\(i\)为虚数单位,\(t\)为实向量。

证明过程

  1. 特征函数的定义:\(\varphi(t) = \mathrm{E}\left[ e^{it^\mathrm{T} X} \right] = \int e^{it^\mathrm{T} x} f(x,\theta) d\mu(x)\)
  2. 代入密度函数,合并指数项:

    \[\varphi(t) = \int h(x) \exp\left\{ (\theta + it)^\mathrm{T} x - b(\theta) \right\} d\mu(x) \]

  3. 凑出\(b(\theta+it)\)的形式,加减\(b(\theta+it)\)

    \[\varphi(t) = \exp\left\{ b(\theta + it) - b(\theta) \right\} \cdot \int h(x) \exp\left\{ (\theta + it)^\mathrm{T} x - b(\theta + it) \right\} d\mu(x) \]

  4. 积分内的部分是自然参数为\(\theta+it\)时的密度函数,积分值为1,因此得证。

核心意义

特征函数与分布是一一对应的,因此自然指数族的分布完全由势函数\(b(\theta)\)唯一确定\(b(\theta)\)是自然指数族的“分布身份证”。


性质2:充分统计量\(T(X)\)也服从自然指数族分布

结论

\(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\}\),则充分统计量\(T=T(X)\)也服从自然指数族分布,密度为:

\[f(t,\theta) = h^*(t) \exp\left\{ \theta^\mathrm{T} t - b(\theta) \right\} \tag{1.5.7} \]

证明过程

  1. 写出\(T\)的特征函数:\(\varphi_T(s) = \mathrm{E}\left[ e^{is^\mathrm{T} T(X)} \right]\),代入密度函数得:

    \[\varphi_T(s) = \int h(x) \exp\left\{ (\theta + is)^\mathrm{T} T(x) - b(\theta) \right\} d\mu(x) \]

  2. 同性质1的推导,凑出\(b(\theta+is)\),可得:

    \[\varphi_T(s) = \exp\left\{ b(\theta + is) - b(\theta) \right\} \]

  3. 该特征函数与标准自然指数族的特征函数完全一致,由特征函数的唯一性,\(T(X)\)服从自然指数族分布,形式如(1.5.7)。

核心意义

这是指数族在统计推断中的核心价值:

  1. 充分统计量\(T(X)\)包含了样本中关于参数的全部信息,且自身也服从指数族,性质优良,统计推断仅需用\(T(X)\)即可,无需原始样本。
  2. \(n\)个独立同分布的指数族样本,联合分布的充分统计量为\(\sum_{i=1}^n T(X_i)\),该和仍服从指数族,极大简化了大样本推断。

性质3:充分统计量的各阶矩由势函数的各阶导数唯一确定

这是自然指数族最常用、最核心的性质,没有之一。

结论

\(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\}\),则:

  1. 一阶矩(期望):\(\mathrm{E}\left[ T_i(X) \right] = \frac{\partial b(\theta)}{\partial \theta_i}\),向量形式为\(\mathrm{E}\left[ T(X) \right] = \nabla b(\theta) = \dot{b}(\theta)\)(梯度)。(1.5.8)
  2. 二阶矩(协方差矩阵):\(\mathrm{Var}\left[ T(X) \right] = \nabla^2 b(\theta) = \ddot{b}(\theta)\)(Hessian矩阵,第\((i,j)\)元素为\(\frac{\partial^2 b(\theta)}{\partial \theta_i \partial \theta_j}\))。(1.5.9)
  3. 高阶中心矩:\(k\)阶中心矩对应\(b(\theta)\)\(k\)阶偏导数,例如三阶中心矩:

    \[\mathrm{E}\left[ (T_i - \mathrm{E}T_i)(T_j - \mathrm{E}T_j)(T_k - \mathrm{E}T_k) \right] = \frac{\partial^3 b(\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k} \]

推论:对标准自然指数族\(T(x)=x\),有\(\mathrm{E}(X) = \dot{b}(\theta)\)\(\mathrm{Var}(X) = \ddot{b}(\theta)\)。(1.5.11)


证明过程(一阶矩)

  1. 由归一化条件:\(\int h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\} d\mu(x) = 1\),对\(\theta_i\)求偏导,由解析性交换求导与积分顺序:

    \[\int \frac{\partial}{\partial \theta_i} \left[ h(x) e^{\theta^\mathrm{T} T(x) - b(\theta)} \right] d\mu(x) = 0 \]

  2. 链式法则求导:

    \[\int h(x) e^{\theta^\mathrm{T} T(x) - b(\theta)} \cdot \left( T_i(x) - \frac{\partial b(\theta)}{\partial \theta_i} \right) d\mu(x) = 0 \]

  3. 拆分积分,第一项为\(\mathrm{E}[T_i(X)]\),第二项积分值为1,因此:

    \[\mathrm{E}[T_i(X)] - \frac{\partial b(\theta)}{\partial \theta_i} = 0 \]

    一阶矩得证。

证明过程(二阶矩/协方差)

对一阶矩的等式,再对\(\theta_j\)求偏导,用乘积法则展开求导,最终可得:

\[\mathrm{E}\left[ (T_i - \mathrm{E}T_i)(T_j - \mathrm{E}T_j) \right] = \frac{\partial^2 b(\theta)}{\partial \theta_i \partial \theta_j} \]

即协方差矩阵为\(b(\theta)\)的Hessian矩阵,二阶矩得证。

高阶矩仅需继续求导即可,以此类推。


核心意义

  1. 矩计算的革命性简化:无需复杂的积分/求和计算,仅需对势函数求导,即可得到任意阶矩,是计算常见分布矩的最优方法。
  2. 广义线性模型(GLM)的核心:GLM的正则连接函数,就是均值\(\mu = \mathrm{E}(Y)\)与自然参数\(\theta\)的关系\(\mu = \dot{b}(\theta)\),方差函数为\(\ddot{b}(\theta)\),是GLM的理论基石。
  3. 极大似然估计的简化:指数族的得分函数为\(S(\theta) = \sum_{i=1}^n \left[ T(x_i) - \dot{b}(\theta) \right]\),令得分函数为0,即可得到MLE的闭式方程:\(\dot{b}(\hat{\theta}) = \frac{1}{n}\sum_{i=1}^n T(x_i)\),求解极其简便。

六、实例验证:泊松分布的自然指数族形式

我们用最常见的泊松分布,验证上述所有结论,直观感受自然指数族的优势。

泊松分布的概率质量函数:\(P(X=x) = \frac{\lambda^x e^{-\lambda}}{x!}, x=0,1,2,\dots, \lambda>0\)

步骤1:改写为自然指数族形式

\[P(X=x) = \frac{1}{x!} \exp\left\{ x \log \lambda - \lambda \right\} \]

对比标准形式,得到:

  • 自然参数:\(\theta = \log \lambda\)(因此\(\lambda = e^\theta\)),自然参数空间\(\Theta = \mathbb{R}\)
  • 充分统计量:\(T(x)=x\)
  • 基础测度项:\(h(x) = \frac{1}{x!}\)
  • 势函数:\(b(\theta) = \lambda = e^\theta\)

步骤2:验证矩性质

  • 一阶导数:\(\dot{b}(\theta) = e^\theta = \lambda\),正好是泊松分布的期望\(\mathrm{E}(X)=\lambda\)
  • 二阶导数:\(\ddot{b}(\theta) = e^\theta = \lambda\),正好是泊松分布的方差\(\mathrm{Var}(X)=\lambda\),完全符合结论。

步骤3:验证特征函数

\[\varphi(t) = \exp\left\{ b(\theta+it) - b(\theta) \right\} = \exp\left\{ e^{\theta+it} - e^\theta \right\} = \exp\left\{ \lambda(e^{it}-1) \right\} \]

与泊松分布的标准特征函数完全一致。

步骤4:验证充分统计量的分布

\(n\)个独立泊松样本的充分统计量\(T=\sum_{i=1}^n X_i\),服从参数为\(n\lambda\)的泊松分布,仍为自然指数族,与性质2完全吻合。


七、总结与拓展

核心价值总结

自然形式的指数族,是数理统计的核心基石,它的核心优势在于:

  1. 结构标准化:将绝大多数常见分布统一为「参数与充分统计量线性组合」的指数形式,建立了统一的分析框架;
  2. 性质极优良:凸参数空间、严格凸的势函数,保证了参数估计的唯一性和稳定性,是频率派统计推断的核心支撑;
  3. 计算极简便:势函数的各阶导数直接对应分布的各阶矩,彻底简化了矩计算、参数估计、特征函数求解等核心问题;
  4. 应用极广泛:从UMVUE、一致最优检验,到广义线性模型、生存分析、机器学习中的指数族变分推断,都以它为理论基础。

拓展说明

统计学中绝大多数常见分布都属于指数族,包括伯努利、二项、泊松、正态、指数、伽马、贝塔、逆高斯分布等;仅少数分布不属于指数族,如均匀分布(支撑集与参数相关)、柯西分布(无有限矩)、拉普拉斯分布(非指数形式)等。

自然形式指数族 完整归纳总结表

以下表格严格对应教材定义、定理与核心性质,兼顾理论严谨性与实用性,分5个模块完整归纳。


表1 自然形式指数族核心定义与要素拆解

要素名称 数学表达式 核心含义 关键约束与说明
自然形式指数族标准定义 \(f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\}\)
(教材式1.5.2)
指数族的标准规范形式,指数部分为自然参数与充分统计量的纯线性组合,是区别于一般指数族的核心特征 关于\(\sigma\)有限测度\(\mu\)定义(离散型为计数测度,连续型为勒贝格测度),需满足密度归一化条件\(\int f(x,\theta)d\mu(x)=1\)
自然参数(典范参数)向量 \(\theta = (\theta_1, \theta_2, \dots, \theta_k)^\mathrm{T} \in \mathbb{R}^k\) 经参数变换后,能与充分统计量形成线性组合的参数,是指数族的核心参数 维度\(k\)为分布族的参数维度,不再是原始分布的常规参数(如泊松分布的\(\lambda\)、正态分布的\(\mu\)
充分统计量向量 \(T(x) = (T_1(x), T_2(x), \dots, T_k(x))^\mathrm{T}\) 承载样本中关于参数\(\theta\)全部信息的统计量,是指数族统计推断的核心载体 与参数\(\theta\)无关,仅由样本\(x\)决定;根据因子分解定理,天然是参数\(\theta\)的充分统计量
基础测度项 \(h(x) \geq 0\) 仅与样本\(x\)相关的非负可测函数,定义分布的支撑集 支撑集(\(f(x,\theta)>0\)\(x\)范围)与参数\(\theta\)无关,这是指数族的核心判定条件之一
势函数(对数配分函数) \(b(\theta) = \log\left( \int h(x) e^{\theta^\mathrm{T} T(x)} d\mu(x) \right)\)
(教材式1.5.4)
保证密度归一化的核心项,是指数族所有矩性质、分布特征的唯一载体 仅与自然参数\(\theta\)相关,其各阶导数直接对应充分统计量的各阶矩
自然参数空间 \(\Theta = \left\{ \theta \in \mathbb{R}^k : \int h(x) e^{\theta^\mathrm{T} T(x)} d\mu(x) < +\infty \right\}\)
(教材式1.5.3)
所有能让配分函数积分收敛、势函数有限的自然参数的集合,是参数的合法取值域 仅当\(\theta \in \Theta\)时,密度函数良定义;是\(\mathbb{R}^k\)上的凸集
极小、满秩条件 \(1, T_1(x), T_2(x), \dots, T_k(x)\)线性无关 保证参数维度无冗余,\(k\)是描述该分布族的最小参数维度 线性无关定义:不存在不全为0的常数\(c_0,c_1,\dots,c_k\),使得\(c_0 + \sum_{i=1}^k c_i T_i(x) = 0\)在支撑集上几乎处处成立
标准简化形式 \(f(y,\theta) = h(y) \exp\left\{ \theta^\mathrm{T} y - b(\theta) \right\}\)
(教材式1.5.5)
\(T(x)=y\)得到的最简形式,绝大多数常见分布可直接写为此形式 此时充分统计量就是随机变量本身,矩性质直接对应随机变量的矩

表2 核心定理完整汇总

定理编号与名称 核心结论 证明核心工具 核心理论意义
定理1.5.1 凸性定理 1. 自然参数空间\(\Theta\)\(\mathbb{R}^k\)上的凸集;
2. 势函数\(b(\theta)\)\(\Theta\)上的严格凸函数
1. 凸集/凸函数的定义;
2. 赫尔德(Hölder)不等式;
3. 极小满秩的线性无关条件
1. 保证指数族对数似然函数为严格凹函数,极大似然估计(MLE)有唯一全局最优解,无局部最优问题;
2. 严格凸函数的Hessian矩阵正定,对应充分统计量的协方差矩阵正定,无参数冗余;
3. 是广义线性模型(GLM)的核心理论基石
定理1.5.2 解析性定理 \(g(x)\)可测且\(G(\theta) = \int g(x) e^{\theta^\mathrm{T} T(x)} d\mu(x)\)存在,则\(G(\theta)\)\(\Theta\)内部解析;特别地,\(b(\theta)\)\(\Theta\)内部解析 拉普拉斯变换的解析性质 1. 解析函数在定义域内任意阶可导,且求导与积分运算可交换顺序,是矩性质证明的核心前提;
2. 保证势函数的各阶导数均存在,可通过求导得到充分统计量的任意阶矩

表3 三大核心性质完整汇总

性质编号 核心结论公式 证明核心 核心应用价值
性质1 特征函数唯一性 对标准形式\(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} x - b(\theta) \right\}\),特征函数为
\(\varphi(t) = \exp\left\{ b(\theta + it) - b(\theta) \right\}\)
(教材式1.5.6)
1. 特征函数的定义\(\varphi(t) = \mathrm{E}[e^{it^\mathrm{T}X}]\)
2. 势函数的归一化定义;
3. 指数项的拆分与凑形
1. 特征函数与分布一一对应,证明自然指数族的分布完全由势函数\(b(\theta)\)唯一确定
2. 无需复杂积分,直接通过势函数求解分布的特征函数
性质2 充分统计量的分布性质 \(X \sim f(x,\theta) = h(x) \exp\left\{ \theta^\mathrm{T} T(x) - b(\theta) \right\}\),则充分统计量\(T=T(X)\)也服从自然指数族:
\(f(t,\theta) = h^*(t) \exp\left\{ \theta^\mathrm{T} t - b(\theta) \right\}\)
(教材式1.5.7)
1. 特征函数的定义与唯一性;
2. 同性质1的凑形推导
1. 统计推断仅需使用充分统计量\(T(X)\),无需原始样本,极大简化计算;
2. \(n\)个独立同分布指数族样本的联合充分统计量\(\sum_{i=1}^n T(X_i)\)仍服从指数族,适配大样本推断
性质3 矩与势函数导数的对应关系 1. 一阶矩(期望):\(\mathrm{E}[T_i(X)] = \frac{\partial b(\theta)}{\partial \theta_i}\),向量形式\(\mathrm{E}[T(X)] = \dot{b}(\theta)\)
(教材式1.5.8)
2. 二阶矩(协方差):\(\mathrm{Var}[T(X)] = \ddot{b}(\theta) = \left( \frac{\partial^2 b(\theta)}{\partial \theta_i \partial \theta_j} \right)_{k \times k}\)
(教材式1.5.9)
3. 高阶中心矩:\(k\)阶中心矩对应\(b(\theta)\)\(k\)阶偏导数
1. 密度归一化等式的逐次求导;
2. 解析性保证的求导与积分交换顺序;
3. 期望的定义
1. 彻底简化矩计算:无需复杂积分/求和,仅需对势函数求导即可得到任意阶矩;
2. 是广义线性模型正则连接函数、方差函数的核心来源;
3. 直接给出指数族极大似然估计的闭式求解方程
标准形式推论 对最简形式\(Y \sim f(y,\theta) = h(y) \exp\left\{ \theta^\mathrm{T} y - b(\theta) \right\}\),有
\(\mathrm{E}(Y) = \dot{b}(\theta), \quad \mathrm{Var}(Y) = \ddot{b}(\theta)\)
(教材式1.5.11)
性质3的直接特例,令\(T(x)=x\) 直接适配绝大多数常见分布的矩计算,是日常应用最广泛的结论

表4 常见分布的自然指数族形式对照表

分布类型 原始概率质量/密度函数 自然参数\(\theta\) 充分统计量\(T(x)\) 基础测度\(h(x)\) 势函数\(b(\theta)\) 自然参数空间\(\Theta\)
伯努利分布\(Bern(p)\) \(P(X=x)=p^x(1-p)^{1-x}, x\in\{0,1\}\) \(\theta = \log\left( \frac{p}{1-p} \right)\)(对数优势比) \(T(x)=x\) \(h(x)=1\) \(b(\theta) = \log(1+e^\theta)\) \(\Theta = \mathbb{R}\)
二项分布\(Bin(n,p)\)\(n\)已知) \(P(X=x)=\binom{n}{x}p^x(1-p)^{n-x}, x\in\{0,1,\dots,n\}\) \(\theta = \log\left( \frac{p}{1-p} \right)\) \(T(x)=x\) \(h(x)=\binom{n}{x}\) \(b(\theta) = n\log(1+e^\theta)\) \(\Theta = \mathbb{R}\)
泊松分布\(Pois(\lambda)\) \(P(X=x)=\frac{\lambda^x e^{-\lambda}}{x!}, x\in\{0,1,2,\dots\}\) \(\theta = \log\lambda\) \(T(x)=x\) \(h(x)=\frac{1}{x!}\) \(b(\theta) = e^\theta\) \(\Theta = \mathbb{R}\)
指数分布\(Exp(\lambda)\) \(f(x)=\lambda e^{-\lambda x}, x>0\) \(\theta = -\lambda\) \(T(x)=x\) \(h(x)=1\) \(b(\theta) = -\log(-\theta)\) \(\Theta = (-\infty,0)\)
单参数正态分布\(N(\mu,\sigma^2)\)\(\sigma^2\)已知) \(f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) \(\theta = \frac{\mu}{\sigma^2}\) \(T(x)=x\) \(h(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{x^2}{2\sigma^2}}\) \(b(\theta) = \frac{\sigma^2 \theta^2}{2}\) \(\Theta = \mathbb{R}\)
双参数正态分布\(N(\mu,\sigma^2)\) \(f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) \(\theta = \left( \frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2} \right)^\mathrm{T}\) \(T(x) = (x, x^2)^\mathrm{T}\) \(h(x)=\frac{1}{\sqrt{2\pi}}\) \(b(\theta) = -\frac{\theta_1^2}{4\theta_2} + \frac{1}{2}\log\left( -\frac{\pi}{\theta_2} \right)\) $\Theta = { (\theta_1,\theta_2)
伽马分布\(Gamma(\alpha,\beta)\)\(\alpha\)已知) \(f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}, x>0\) \(\theta = -\beta\) \(T(x)=x\) \(h(x)=\frac{x^{\alpha-1}}{\Gamma(\alpha)}\) \(b(\theta) = -\alpha \log(-\theta)\) \(\Theta = (-\infty,0)\)

表5 核心符号规范说明表

符号 数学含义 备注说明
\(\theta\) 自然参数(典范参数)向量 维度与充分统计量一致,是指数族的核心参数
\(T(x)\) 充分统计量向量 仅与样本\(x\)相关,承载参数的全部信息
\(h(x)\) 基础测度项 非负可测,定义分布的支撑集,与参数无关
\(b(\theta)\) 势函数(对数配分函数) 指数族的核心,唯一确定分布的所有特征与矩
\(\Theta\) 自然参数空间 自然参数的合法取值域,是\(\mathbb{R}^k\)上的凸集
\(\mu\) 参考测度 离散分布为计数测度,连续分布为勒贝格测度
\(\varphi(t)\) 特征函数 与分布一一对应,由势函数唯一确定
\(\dot{b}(\theta)\) \(b(\theta)\)的一阶梯度向量 对应充分统计量的期望
\(\ddot{b}(\theta)\) \(b(\theta)\)的二阶Hessian矩阵 对应充分统计量的协方差矩阵
\(k\) 自然参数/充分统计量的维度 极小满秩条件下,为分布族的最小参数维度

posted on 2026-02-19 20:51  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航