夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

3.3.2指数族分布的最大似然估计

指数族分布的最大似然估计完整讲解与推导

作为统计学中最核心的分布族之一，指数族分布涵盖了绝大多数常见的概率分布（正态、二项、泊松、多项、伽马等），其最大似然估计（MLE）具有统一的求解形式和优良的统计性质，下面我们从基础定义到定理证明、例题拆解，进行完整的讲解。

一、指数族分布的基础定义

1.1 单变量指数族分布

指数族分布的概率密度/质量函数（连续型为密度，离散型为质量函数，形式完全统一）的标准形式为：

\[X \sim f(x;\theta) = h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\} \]

符号	名称	核心含义与性质
\(\theta\)	自然参数/典范参数	k维列向量，是我们的待估参数，参数空间为\(\Theta \subset \mathbb{R}^k\)
\(T(x)\)	充分统计量	k维列向量，包含了样本中关于参数\(\theta\)的所有信息，是指数族的核心统计量
\(h(x)\)	基底函数	仅与观测值\(x\)有关，与参数\(\theta\)无关，求导时会被消去，不影响极值求解
\(b(\theta)\)	累积量生成函数/对数配分函数	仅与\(\theta\)有关，作用是保证密度函数的正则性（积分/求和为1），其各阶导数对应\(T(x)\)的各阶矩

1.2 独立同分布样本的联合指数族形式

若有n个独立同分布的样本\(X=(X_1,X_2,\dots,X_n)^T\)，每个\(X_i\)服从上述指数族分布，则样本的联合密度函数为：

\[f(x;\theta) = \prod_{i=1}^n h(x_i) \exp\left\{ \theta^T \sum_{i=1}^n T(x_i) - n b(\theta) \right\} \]

该式依然满足指数族的标准形式，只需重新定义：

新基底函数：\(h^*(x) = \prod_{i=1}^n h(x_i)\)
新充分统计量：\(T^*(x) = \sum_{i=1}^n T(x_i)\)
新累积量生成函数：\(b^*(\theta) = n b(\theta)\)

核心结论：n个i.i.d.的指数族样本的联合分布仍属于指数族，因此后续的定理对单变量和样本场景完全通用。

二、定理3.3.1 自然指数族的MLE定理完整证明

定理内容

对于指数族分布\(f(x;\theta) = h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\}\)，\(\theta\)的似然方程可表示为：

\[T(X) = \mathbb{E}_\theta [T(X)] \]

且有\(\mathbb{E}_\theta[T(X)] = \dot{b}(\theta)\)（\(\dot{b}(\theta)\)为\(b(\theta)\)对\(\theta\)的一阶梯度）。若该方程在参数空间\(\Theta\)内部有解，则解必唯一，且为\(\theta\)的最大似然估计。

完整证明过程

步骤1：构建对数似然函数

最大化似然函数等价于最大化对数似然函数（对数为单调递增函数，不改变极值点）。对密度函数取自然对数，得到对数似然函数：

\[\ell(\theta) = \log L(\theta) = \log h(x) + \theta^T T(x) - b(\theta) \]

其中\(\log h(x)\)与\(\theta\)无关，后续求导时导数为0，不影响极值求解。

步骤2：推导似然方程（一阶条件）

似然方程的定义是：对数似然函数对参数\(\theta\)的一阶导数（得分函数）为0。

对\(\theta\)的第\(i\)个分量\(\theta_i\)求偏导：

\[\frac{\partial \ell(\theta)}{\partial \theta_i} = \frac{\partial}{\partial \theta_i}\left( \theta^T T(x) \right) - \frac{\partial b(\theta)}{\partial \theta_i} = T_i(x) - \frac{\partial b(\theta)}{\partial \theta_i} \]

令一阶偏导为0，得到似然方程的分量形式：

\[T_i(x) - \frac{\partial b(\theta)}{\partial \theta_i} = 0 \tag{3.3.3} \]

写成向量形式为：

\[T(x) = \dot{b}(\theta) \]

步骤3：证明核心矩性质\(\mathbb{E}_\theta [T(X)] = \dot{b}(\theta)\)

概率密度满足正则性条件：\(\int_{-\infty}^{+\infty} f(x;\theta) dx = 1\)（离散型替换为求和，证明完全一致）。将指数族密度代入得：

\[\int_{-\infty}^{+\infty} h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\} dx = 1 \]

将\(\exp(-b(\theta))\)提出积分外，变形得：

\[\int_{-\infty}^{+\infty} h(x) \exp\left\{ \theta^T T(x) \right\} dx = \exp(b(\theta)) \tag{*} \]

对等式(*)两边同时对\(\theta_i\)求偏导（指数族满足正则性条件，积分与求导可交换）：

左边求导：\(\int_{-\infty}^{+\infty} T_i(x) \cdot h(x) \exp\left\{ \theta^T T(x) \right\} dx\)
右边求导：\(\exp(b(\theta)) \cdot \frac{\partial b(\theta)}{\partial \theta_i}\)

两边同时乘以\(\exp(-b(\theta))\)，左边恰好为\(\mathbb{E}_\theta [T_i(X)]\)，因此得：

\[\mathbb{E}_\theta [T_i(X)] = \frac{\partial b(\theta)}{\partial \theta_i} \]

写成向量形式即为：

\[\mathbb{E}_\theta [T(X)] = \dot{b}(\theta) \]

将该式代入似然方程，最终得到定理的核心形式：

\[T(X) = \mathbb{E}_\theta [T(X)] \]

步骤4：证明解的唯一性与全局最优性

要证明临界点是全局唯一的最大值点，需分析对数似然函数的二阶导数（海塞矩阵）的正定性。

对一阶偏导再次求偏导，得到二阶混合偏导：

\[\frac{\partial^2 \ell(\theta)}{\partial \theta_i \partial \theta_j} = - \frac{\partial^2 b(\theta)}{\partial \theta_i \partial \theta_j} \]

写成矩阵形式，海塞矩阵为：

\[\nabla^2 \ell(\theta) = - \ddot{b}(\theta) \]

其中\(\ddot{b}(\theta)\)是\(b(\theta)\)的二阶导数矩阵。

对\(\mathbb{E}_\theta [T_i(X)] = \frac{\partial b(\theta)}{\partial \theta_i}\)再次求偏导，可证明：

\[\frac{\partial^2 b(\theta)}{\partial \theta_i \partial \theta_j} = \text{Cov}_\theta (T_i(X), T_j(X)) \]

即\(\ddot{b}(\theta) = \text{Cov}_\theta (T(X))\)，而充分统计量的协方差矩阵在指数族正则条件下是正定矩阵。

因此，对数似然函数的海塞矩阵\(\nabla^2 \ell(\theta) = - \ddot{b}(\theta)\)是负定矩阵，说明\(\ell(\theta)\)是关于\(\theta\)的严格凹函数。

严格凹函数的核心性质：临界点（一阶导数为0的点）是全局唯一的最大值点。因此，若似然方程在\(\Theta\)内部有解，则解必唯一，且为\(\theta\)的最大似然估计。

补充注：若解在\(\Theta\)的边界上，严格凹函数的最大值会在边界取到，无法用一阶导数为0的条件，需结合参数约束求解。

三、定理3.3.2 曲指数族的MLE定理完整证明

3.1 曲指数族的定义

当自然参数\(\theta\)不是自由参数，而是由更低维度的参数\(\beta\)决定（即\(\theta = \theta(\beta)\)，\(\beta\)为p维向量，\(p \leq k\)）时，该分布称为曲指数族，其密度形式为：

\[X \sim f(x;\theta(\beta)) = h(x) \exp\left\{ \theta(\beta)^T T(x) - b(\theta(\beta)) \right\} \]

其中\(\theta(\beta)\)是从\(\beta\)的参数空间\(B\)到\(\Theta\)的映射，参数被限制在k维空间的p维曲面上。

定理内容

若\(\hat{\beta}\)满足方程：

\[T(X) = \mathbb{E}_\beta [T(X)] \]

且\(\theta(\hat{\beta})\)是\(\Theta\)的内点，则\(\hat{\beta}\)为\(\beta\)的最大似然估计，其中\(\mathbb{E}_\beta [T(X)] = \dot{b}(\theta(\beta))\)。

完整证明过程

步骤1：定义曲指数族的对数似然函数

记自然指数族的对数似然函数为\(\ell(\theta) = \log h(x) + \theta^T T(x) - b(\theta)\)，将\(\theta = \theta(\beta)\)代入，得到关于\(\beta\)的对数似然函数：

\[\bar{\ell}(\beta) = \ell(\theta(\beta)) = \log h(x) + \theta(\beta)^T T(x) - b(\theta(\beta)) \]

我们的目标是找到\(\hat{\beta} = \arg\max_{\beta \in B} \bar{\ell}(\beta)\)。

步骤2：利用自然指数族的MLE结论

若\(\hat{\beta}\)满足\(T(X) = \mathbb{E}_{\hat{\beta}} [T(X)]\)，令\(\hat{\theta} = \theta(\hat{\beta})\)，则方程可写为：

\[T(X) = \mathbb{E}_{\hat{\theta}} [T(X)] \]

根据定理3.3.1，若\(\hat{\theta}\)是\(\Theta\)的内点，则\(\hat{\theta}\)是\(\theta\)的MLE，即：

\[\ell(\hat{\theta}) \geq \ell(\theta), \quad \forall \theta \in \Theta \]

步骤3：证明\(\hat{\beta}\)是\(\beta\)的MLE

对任意\(\beta \in B\)，对应的\(\theta(\beta) \in \Theta_1 \subset \Theta\)，因此有：

\[\ell(\hat{\theta}) \geq \ell(\theta(\beta)), \quad \forall \beta \in B \]

根据定义，\(\bar{\ell}(\hat{\beta}) = \ell(\theta(\hat{\beta})) = \ell(\hat{\theta})\)，\(\bar{\ell}(\beta) = \ell(\theta(\beta))\)，因此：

\[\bar{\ell}(\hat{\beta}) \geq \bar{\ell}(\beta), \quad \forall \beta \in B \]

即\(\hat{\beta}\)是\(\bar{\ell}(\beta)\)的全局最大值点，也就是\(\beta\)的最大似然估计。

补充注：该定理的方程是求解\(\hat{\beta}\)的充分非必要条件，并非\(\beta\)的似然方程。\(\beta\)的似然方程由链式法则推导为：

\[\frac{\partial \bar{\ell}(\beta)}{\partial \beta_a} = \sum_{i=1}^k \frac{\partial \theta_i}{\partial \beta_a} \left[ T_i(x) - \frac{\partial b(\theta)}{\partial \theta_i} \right] = 0, \quad a=1,\dots,p \]

满足定理方程的解一定满足似然方程，但反之不成立。

四、例题详细拆解

例3.3.8 二元正态分布的MLE求解

题目

设\((X_1,Y_1),\dots,(X_n,Y_n)\)独立同分布，\((X_1,Y_1) \sim N(0,0,\sigma^2,\sigma^2,\rho)\)，求\(\sigma^2, \rho\)的最大似然估计。

求解过程

写出样本联合密度
单组样本的二元正态密度为：

\[f(x_i,y_i) = \frac{1}{2\pi \sigma^2 \sqrt{1-\rho^2}} \exp\left\{ -\frac{1}{2\sigma^2(1-\rho^2)} \left[ x_i^2 + y_i^2 - 2\rho x_i y_i \right] \right\} \]

n个样本的联合密度为：

\[f(x,y) = \left( \frac{1}{2\pi \sigma^2 \sqrt{1-\rho^2}} \right)^n \exp\left\{ -\frac{1}{2\sigma^2(1-\rho^2)} \left[ \sum_{i=1}^n (x_i^2 + y_i^2) - 2\rho \sum_{i=1}^n x_i y_i \right] \right\} \]

转化为指数族形式
将指数部分展开，定义：

充分统计量：\(T_1 = \sum_{i=1}^n (X_i^2 + Y_i^2)\)，\(T_2 = \sum_{i=1}^n X_i Y_i\)
自然参数：\(\theta_1 = -\frac{1}{2\sigma^2(1-\rho^2)}\)，\(\theta_2 = \frac{\rho}{\sigma^2(1-\rho^2)}\)
待估参数：\(\beta = (\sigma^2, \rho)\)，\(\theta = \theta(\beta)\)，属于曲指数族。

计算充分统计量的期望

\[\mathbb{E}[T_1] = n \cdot \mathbb{E}[X_1^2 + Y_1^2] = n(\sigma^2 + \sigma^2) = 2n\sigma^2 \]

\[\mathbb{E}[T_2] = n \cdot \mathbb{E}[X_1 Y_1] = n \cdot \rho \sigma^2 \]

解方程求MLE
令\(T_1 = \mathbb{E}[T_1]\)，\(T_2 = \mathbb{E}[T_2]\)，得：

\[\sum_{i=1}^n (X_i^2 + Y_i^2) = 2n\sigma^2, \quad \sum_{i=1}^n X_i Y_i = n\rho \sigma^2 \]

解得：

\[\widehat{\sigma^2} = \frac{1}{2n} \sum_{i=1}^n (X_i^2 + Y_i^2), \quad \hat{\rho} = \frac{2 \sum_{i=1}^n X_i Y_i}{\sum_{i=1}^n (X_i^2 + Y_i^2)} \]

例3.3.9 含参数的多项分布的MLE求解

题目

设\(N = (N_1,N_2,N_3)^T \sim MN(n, \pi)\)，其中\(\pi_1 = \beta^2\)，\(\pi_2 = 2\beta(1-\beta)\)，\(\pi_3 = (1-\beta)^2\)，求\(\beta\)的最大似然估计。

求解过程

写出多项分布的质量函数

\[p(n_1,n_2,n_3;\beta) = \frac{n!}{n_1! n_2! n_3!} \cdot (\beta^2)^{n_1} \cdot [2\beta(1-\beta)]^{n_2} \cdot [(1-\beta)^2]^{n_3} \]

转化为指数族形式
将和\(\beta\)无关的项提为\(h(n_1,n_2,n_3) = \frac{n!}{n_1! n_2! n_3!} \cdot 2^{n_2}\)，剩余部分写成指数形式：

\[p(n_1,n_2,n_3;\beta) = h(n_1,n_2,n_3) \exp\left\{ (2n_1 + n_2) \log\left( \frac{\beta}{1-\beta} \right) + 2n \log(1-\beta) \right\} \]

定义：

充分统计量：\(T(N) = 2N_1 + N_2\)
自然参数：\(\theta = \log\left( \frac{\beta}{1-\beta} \right) = \theta(\beta)\)，属于曲指数族。

计算充分统计量的期望
\(N_1 \sim b(n,\pi_1)\)，\(N_2 \sim b(n,\pi_2)\)，因此：

\[\mathbb{E}[T(N)] = 2\mathbb{E}[N_1] + \mathbb{E}[N_2] = 2n\pi_1 + n\pi_2 \]

代入\(\pi_1 = \beta^2\)，\(\pi_2 = 2\beta(1-\beta)\)，化简得：

\[\mathbb{E}[T(N)] = 2n\beta^2 + 2n\beta(1-\beta) = 2n\beta \]

解方程求MLE
令\(T(N) = \mathbb{E}[T(N)]\)，得：

\[2N_1 + N_2 = 2n\beta \]

解得：

\[\hat{\beta} = \frac{2N_1 + N_2}{2n} \]

五、核心知识点归纳总结

表1 指数族核心符号与定义

项目	核心内容
标准形式	\(f(x;\theta) = h(x) \exp\left\{ \theta^T T(x) - b(\theta) \right\}\)
自然参数\(\theta\)	待估参数，决定分布的核心特征，维度与充分统计量一致
充分统计量\(T(x)\)	包含样本中关于\(\theta\)的所有信息，其期望等于\(b(\theta)\)的一阶导数
累积量生成函数\(b(\theta)\)	一阶导数为\(T(x)\)的期望，二阶导数为\(T(x)\)的协方差矩阵（正定）
曲指数族	自然参数\(\theta\)由低维参数\(\beta\)决定，即\(\theta = \theta(\beta)\)，参数维度\(p \leq k\)

表2 两个核心定理对比

对比项	定理3.3.1（自然指数族）	定理3.3.2（曲指数族）
适用场景	自然参数\(\theta\)为自由参数，维度与充分统计量一致	自然参数\(\theta\)是低维参数\(\beta\)的函数，参数被限制在低维曲面
核心方程	\(T(X) = \mathbb{E}_\theta [T(X)]\)	\(T(X) = \mathbb{E}_\beta [T(X)]\)
方程性质	是\(\theta\)的似然方程，充要条件	是\(\beta\)的MLE的充分非必要条件，非似然方程
解的性质	若在\(\Theta\)内部有解，必唯一且为全局MLE	若\(\theta(\hat{\beta})\)在\(\Theta\)内部，\(\hat{\beta}\)必为\(\beta\)的MLE
核心逻辑	严格凹函数的临界点是全局最大值点	继承自然指数族的全局最优性，映射到低维参数空间

表3 指数族MLE的通用求解步骤

步骤	操作内容
步骤1	将目标分布的密度/质量函数，整理为指数族的标准形式
步骤2	提取充分统计量\(T(X)\)，确定待估参数与自然参数的关系
步骤3	计算充分统计量的期望\(\mathbb{E}[T(X)]\)，化简为待估参数的表达式
步骤4	列方程\(T(X) = \mathbb{E}[T(X)]\)，求解待估参数
步骤5	验证解是否在参数空间内部，若在内部则为唯一的MLE

表4 两个例题的核心信息对比

对比项	例3.3.8 二元正态分布	例3.3.9 含参多项分布
待估参数	\(\beta = (\sigma^2, \rho)\)（2维）	\(\beta\)（1维）
充分统计量	\(T_1 = \sum (X_i^2 + Y_i^2)\)，\(T_2 = \sum X_i Y_i\)	\(T(N) = 2N_1 + N_2\)
期望化简结果	\(\mathbb{E}[T_1] = 2n\sigma^2\)，\(\mathbb{E}[T_2] = n\rho \sigma^2\)	\(\mathbb{E}[T(N)] = 2n\beta\)
MLE结果	\(\widehat{\sigma^2} = \frac{1}{2n}\sum (X_i^2 + Y_i^2)\)，\(\hat{\rho} = \frac{2\sum X_i Y_i}{\sum (X_i^2 + Y_i^2)}\)	\(\hat{\beta} = \frac{2N_1 + N_2}{2n}\)
核心特点	双参数曲指数族，通过两个方程联立求解	单参数曲指数族，方程直接化简得到闭式解

posted on 2026-02-24 09:16 Indian_Mysore 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一

3.3.2指数族分布的最大似然估计

指数族分布的最大似然估计完整讲解与推导

一、指数族分布的基础定义

1.1 单变量指数族分布

1.2 独立同分布样本的联合指数族形式

二、定理3.3.1 自然指数族的MLE定理完整证明

定理内容

完整证明过程

步骤1：构建对数似然函数

步骤2：推导似然方程（一阶条件）

步骤3：证明核心矩性质\(\mathbb{E}_\theta [T(X)] = \dot{b}(\theta)\)

步骤4：证明解的唯一性与全局最优性

三、定理3.3.2 曲指数族的MLE定理完整证明

3.1 曲指数族的定义

定理内容

完整证明过程

步骤1：定义曲指数族的对数似然函数

步骤2：利用自然指数族的MLE结论

步骤3：证明\(\hat{\beta}\)是\(\beta\)的MLE

四、例题详细拆解

例3.3.8 二元正态分布的MLE求解

题目

求解过程

例3.3.9 含参数的多项分布的MLE求解

题目

求解过程

五、核心知识点归纳总结

表1 指数族核心符号与定义

表2 两个核心定理对比

表3 指数族MLE的通用求解步骤

表4 两个例题的核心信息对比

导航

公告

昆仑山:眼中无形心中有穴之穴人合一

3.3.2指数族分布的最大似然估计

指数族分布的最大似然估计 完整讲解与推导

一、指数族分布的基础定义

1.1 单变量指数族分布

1.2 独立同分布样本的联合指数族形式

二、定理3.3.1 自然指数族的MLE定理 完整证明

定理内容

完整证明过程

步骤1：构建对数似然函数

步骤2：推导似然方程（一阶条件）

步骤3：证明核心矩性质\(\mathbb{E}_\theta [T(X)] = \dot{b}(\theta)\)

步骤4：证明解的唯一性与全局最优性

三、定理3.3.2 曲指数族的MLE定理 完整证明

3.1 曲指数族的定义

定理内容

完整证明过程

步骤1：定义曲指数族的对数似然函数

步骤2：利用自然指数族的MLE结论

步骤3：证明\(\hat{\beta}\)是\(\beta\)的MLE

四、例题详细拆解

例3.3.8 二元正态分布的MLE求解

题目

求解过程

例3.3.9 含参数的多项分布的MLE求解

题目

求解过程

五、核心知识点归纳总结

表1 指数族核心符号与定义

表2 两个核心定理对比

表3 指数族MLE的通用求解步骤

表4 两个例题的核心信息对比

导航

公告

指数族分布的最大似然估计完整讲解与推导

二、定理3.3.1 自然指数族的MLE定理完整证明

三、定理3.3.2 曲指数族的MLE定理完整证明