昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

3.2.1无偏估计与最优无偏估计知识点基本定义

无偏估计与最优无偏估计知识点详解

各位同学,今天我们来系统讲解数理统计中参数估计的核心内容——无偏估计、均方误差分解与最优无偏估计,这部分内容是点估计的核心,也是后续寻找最优估计量的理论基础,我会从符号体系、核心定义、公式推导、案例解析四个维度逐层拆解,最后用表格做系统归纳。


一、基础符号与问题背景铺垫

首先我们要把所有符号的含义彻底讲透,符号是理解统计理论的基础,很多同学学不懂就是因为没搞懂符号的统计意义。

符号 统计含义 核心说明
\(X_1,X_2,\dots,X_n\) 来自总体的独立同分布样本 我们所有的估计都基于样本构造,估计量是样本的函数
\(X=(X_1,\dots,X_n)^T\) 样本列向量 把n个样本写成向量形式,方便表示联合分布
\(f(x,\theta)\) 样本的联合概率密度/分布列 描述样本的分布规律,\(\theta\) 是决定分布的未知参数
\(\Theta\) 参数空间 未知参数 \(\theta\) 所有可能取值的集合,无偏性要求对所有 \(\theta\in\Theta\) 成立
\(g(\theta)\) 待估对象 我们要估计的目标,既可以是参数 \(\theta\) 本身,也可以是它的函数(比如正态分布中用 \(\sigma^2\) 估计 \(\sigma=\sqrt{\sigma^2}\)
\(\widehat{g}(X)/\delta(X)\) \(g(\theta)\) 的估计量 用样本构造的统计量,是随机变量;代入观测值后得到的是估计值(常数)
\(L(\theta,d)\) 损失函数 衡量“用估计值 \(d\) 估计真实值 \(g(\theta)\)”造成的损失,要求是关于 \(d\) 的凸函数,最常用的是平方损失 \(L(\theta,d)=(d-g(\theta))^2\)
\(R(\theta,\widehat{g})\) 风险函数 损失函数的期望 \(R(\theta,\widehat{g})=\mathrm{E}_\theta[L(\theta,\widehat{g}(X))]\),衡量估计量的平均损失,是评价估计量好坏的核心指标

我们的核心问题:从 \(g(\theta)\) 的所有估计量集合 \(\mathcal{D}\) 中,缩小范围到无偏估计集合 \(\Delta\),在这个集合里找到“风险最小、精度最高”的最优估计量。


二、无偏估计的核心定义与经典案例

2.1 偏差与无偏估计的定义

(1)偏差的定义

对于 \(g(\theta)\) 的估计量 \(\widehat{g}(X)\),其偏差定义为:

\[\mathrm{bias}[\widehat{g}(X)] = \mathrm{E}_\theta\left[\widehat{g}(X) - g(\theta)\right] \]

  • 本质:估计量的平均系统误差,是估计误差的期望;
  • 含义:如果偏差>0,说明估计量平均意义下会高估真实值;偏差<0,说明平均意义下会低估真实值。

(2)无偏估计的定义

如果对参数空间中所有 \(\theta\in\Theta\),都满足 \(\mathrm{bias}[\widehat{g}(X)] = 0\),即:

\[\mathrm{E}_\theta[\widehat{g}(X)] = g(\theta), \quad \forall \theta\in\Theta \]

则称 \(\widehat{g}(X)\)\(g(\theta)\)无偏估计(Unbiased Estimate, UE)

这里必须强调两个初学者最容易踩的坑:

  1. 无偏性是全局性质,不是局部性质:必须对参数空间里的每一个 \(\theta\) 都满足期望等于真实值,而不是只对某一个特定的 \(\theta\) 成立;
  2. 无偏性是平均意义下的无偏:无偏估计不是每一次估计都等于真实值,而是重复抽样无数次后,所有估计值的平均值等于真实值,它消除的是系统误差,无法消除抽样带来的随机误差。

2.2 经典案例:样本均值与样本方差的无偏性

案例设定:设 \(X_1,X_2,\dots,X_n\) 独立同分布,总体期望 \(\mathrm{E}(X_1)=\mu\),总体方差 \(\mathrm{Var}(X_1)=\sigma^2\)(只要期望和方差存在,无论总体是什么分布,结论都成立)。
我们要证明:

  1. 样本均值 \(\overline{X} = \frac{1}{n}\sum_{i=1}^n X_i\)\(\mu\) 的无偏估计;
  2. 样本方差 \(S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \overline{X})^2\)\(\sigma^2\) 的无偏估计。

证明1:样本均值的无偏性

根据期望的线性性质(无论变量是否独立,线性性质都成立):

\[\mathrm{E}(\overline{X}) = \mathrm{E}\left( \frac{1}{n}\sum_{i=1}^n X_i \right) = \frac{1}{n}\sum_{i=1}^n \mathrm{E}(X_i) = \frac{1}{n} \cdot n\mu = \mu \]

对所有 \(\mu\in\mathbb{R}\) 成立,因此 \(\overline{X}\)\(\mu\) 的无偏估计。

证明2:样本方差的无偏性

这是本部分的核心,也是大家最疑惑的“为什么样本方差分母是n-1,不是n”的答案。

第一步:做变量简化,令 \(Y_i = X_i - \mu\),则 \(\mathrm{E}(Y_i)=0\)\(\mathrm{Var}(Y_i)=\sigma^2\),且 \(Y_1,\dots,Y_n\) 独立同分布。
同时易得:\(X_i - \overline{X} = Y_i - \overline{Y}\),因此 \(\sum_{i=1}^n (X_i - \overline{X})^2 = \sum_{i=1}^n (Y_i - \overline{Y})^2\)

第二步:展开平方项

\[\sum_{i=1}^n (Y_i - \overline{Y})^2 = \sum_{i=1}^n \left( Y_i^2 - 2Y_i \overline{Y} + \overline{Y}^2 \right) = \sum_{i=1}^n Y_i^2 - n\overline{Y}^2 \]

(推导:\(\sum_{i=1}^n Y_i = n\overline{Y}\),因此交叉项 \(-2\overline{Y}\sum_{i=1}^n Y_i = -2n\overline{Y}^2\),与 \(n\overline{Y}^2\) 合并后得到 \(-n\overline{Y}^2\)

第三步:对展开式求期望

\[\mathrm{E}\left[ \sum_{i=1}^n (Y_i - \overline{Y})^2 \right] = \mathrm{E}\left( \sum_{i=1}^n Y_i^2 \right) - n\mathrm{E}(\overline{Y}^2) \]

分别计算两项:

  1. 对于 \(Y_i\),由方差公式 \(\mathrm{Var}(Z)=\mathrm{E}(Z^2)-[\mathrm{E}(Z)]^2\),得 \(\mathrm{E}(Y_i^2)=\mathrm{Var}(Y_i)+[\mathrm{E}(Y_i)]^2=\sigma^2\),因此:

\[\mathrm{E}\left( \sum_{i=1}^n Y_i^2 \right) = n\sigma^2 \]

  1. 对于 \(\overline{Y}\)\(\mathrm{E}(\overline{Y})=0\)\(\mathrm{Var}(\overline{Y})=\frac{\sigma^2}{n}\),同理得:

\[\mathrm{E}(\overline{Y}^2) = \mathrm{Var}(\overline{Y}) + [\mathrm{E}(\overline{Y})]^2 = \frac{\sigma^2}{n} \]

第四步:合并结果

\[\mathrm{E}\left[ \sum_{i=1}^n (Y_i - \overline{Y})^2 \right] = n\sigma^2 - n\cdot\frac{\sigma^2}{n} = (n-1)\sigma^2 \]

因此:

\[\mathrm{E}(S^2) = \mathrm{E}\left( \frac{1}{n-1}\sum_{i=1}^n (X_i - \overline{X})^2 \right) = \frac{1}{n-1}\cdot(n-1)\sigma^2 = \sigma^2 \]

对所有 \(\sigma^2>0\) 成立,因此 \(S^2\)\(\sigma^2\) 的无偏估计。

结论:如果样本方差分母取n,那么 \(\mathrm{E}\left( \frac{1}{n}\sum (X_i-\overline{X})^2 \right) = \frac{n-1}{n}\sigma^2 < \sigma^2\),会系统性低估总体方差,除以n-1就是为了修正这个偏差,让估计量无偏。


三、均方误差(MSE)的分解与统计意义

3.1 均方误差的定义

最常用的损失函数是平方损失,对应的风险函数就是均方误差(Mean Squared Error, MSE),定义为:

\[\mathrm{MSE}(\widehat{g}(X)) = \mathrm{E}_\theta\left[ \widehat{g}(X) - g(\theta) \right]^2 \]

它衡量的是估计量与真实值的平均平方距离,是点估计中最核心的评价指标,数值越小,估计的整体精度越高。

3.2 均方误差的核心分解公式

\[\mathrm{MSE}(\widehat{g}(X)) = \mathrm{Var}_\theta(\widehat{g}(X)) + \left[ \mathrm{bias}(\widehat{g}(X)) \right]^2 \]

即:均方误差 = 方差 + 偏差的平方

公式推导

我们用统计中最经典的“加减期望”技巧拆分误差项:

\[\widehat{g}(X) - g(\theta) = \left[ \widehat{g}(X) - \mathrm{E}_\theta(\widehat{g}(X)) \right] + \left[ \mathrm{E}_\theta(\widehat{g}(X)) - g(\theta) \right] \]

  • 第一部分 \(\widehat{g}(X) - \mathrm{E}_\theta(\widehat{g}(X))\):随机波动项,期望为0,方差就是估计量的方差;
  • 第二部分 \(\mathrm{E}_\theta(\widehat{g}(X)) - g(\theta)\):偏差项,是与样本无关的常数。

将拆分后的式子代入MSE定义,平方展开:

\[\mathrm{MSE} = \mathrm{E}_\theta\left[ \left( \widehat{g} - \mathrm{E}\widehat{g} \right) + \left( \mathrm{E}\widehat{g} - g(\theta) \right) \right]^2 \]

\[= \mathrm{E}_\theta\left( \widehat{g} - \mathrm{E}\widehat{g} \right)^2 + 2\mathrm{E}_\theta\left[ \left( \widehat{g} - \mathrm{E}\widehat{g} \right)\left( \mathrm{E}\widehat{g} - g(\theta) \right) \right] + \left[ \mathrm{bias}(\widehat{g}) \right]^2 \]

其中交叉项:常数 \(\mathrm{E}\widehat{g} - g(\theta)\) 可提出期望外,而 \(\mathrm{E}_\theta\left( \widehat{g} - \mathrm{E}\widehat{g} \right)=0\),因此交叉项整体为0。
最终得到分解公式:

\[\mathrm{MSE}(\widehat{g}(X)) = \mathrm{Var}_\theta(\widehat{g}(X)) + \left[ \mathrm{bias}(\widehat{g}(X)) \right]^2 \]

3.3 分解的核心统计意义

  1. 估计量的总误差来自两个部分:
    • 方差:抽样带来的随机波动,样本量越大,方差通常越小;
    • 偏差平方:估计量的系统误差,无偏估计的偏差为0,这一项完全消失。
  2. 无偏估计的核心简化:对于无偏估计,\(\mathrm{bias}=0\),因此 \(\mathrm{MSE}=\mathrm{Var}\)。也就是说,在无偏估计类中,找均方误差最小的估计量,等价于找方差最小的估计量,这为我们寻找最优无偏估计指明了方向。
  3. 补充认知:无偏估计不一定是“最好”的估计。如果一个有偏估计的偏差极小,但方差远小于无偏估计,其总MSE可能更低,实际效果更好(比如岭回归、LASSO回归)。我们研究的是“无偏前提下的最优”,而非全局所有估计量的最优。

四、最优无偏估计的定义与存在性

4.1 一致最小风险无偏估计(UMRUE)

对于一般的凸损失函数 \(L(\theta,d)\),若存在 \(g(\theta)\) 的无偏估计 \(\widehat{g}(X)\),使得对任意其他无偏估计 \(\widetilde{g}(X)\),以及所有 \(\theta\in\Theta\),都有:

\[R(\theta,\widehat{g}(X)) \leq R(\theta,\widetilde{g}(X)), \quad \forall \theta\in\Theta \]

则称 \(\widehat{g}(X)\)\(g(\theta)\)一致最小风险无偏估计(Uniformly Minimum Risk Unbiased Estimate, UMRUE)

这里的“一致”,指的是对参数空间的所有 \(\theta\) 都成立,是全局最优,而非局部最优。

4.2 一致最小方差无偏估计(UMVUE)

针对最常用的平方损失,风险函数等价于方差,因此得到我们最核心的最优估计定义:
若存在 \(g(\theta)\) 的无偏估计 \(\widehat{g}(X)\),使得对任意其他无偏估计 \(\widetilde{g}(X)\),以及所有 \(\theta\in\Theta\),都有:

\[\mathrm{Var}_\theta(\widehat{g}(X)) \leq \mathrm{Var}_\theta(\widetilde{g}(X)), \quad \forall \theta\in\Theta \]

则称 \(\widehat{g}(X)\)\(g(\theta)\)一致最小方差无偏估计(Uniformly Minimum Variance Unbiased Estimate, UMVUE)

UMVUE是无偏估计类中的“最优估计量”,后续我们会通过充分完备统计量、C-R不等式等工具,来求解具体分布参数的UMVUE。

4.3 无偏估计的存在性说明

重要结论:无偏估计不一定存在,不是所有待估函数 \(g(\theta)\) 都能找到无偏估计。

经典反例

\(X \sim b(n,\theta)\)(二项分布),\(\theta\in(0,1)\),证明 \(g(\theta)=\theta^{-1}\) 不存在无偏估计。

证明(反证法)
假设存在 \(\theta^{-1}\) 的无偏估计 \(\widehat{g}(X)\),根据无偏性定义,对所有 \(\theta\in(0,1)\),有:

\[\mathrm{E}_\theta[\widehat{g}(X)] = \sum_{x=0}^n \widehat{g}(x) \binom{n}{x} \theta^x (1-\theta)^{n-x} = \frac{1}{\theta} \]

\(\theta\to0^+\),分析等式两边极限:

  • 右边:\(\frac{1}{\theta}\to+\infty\),趋向于正无穷;
  • 左边:有限项求和,当 \(\theta\to0\) 时,仅x=0的项保留,极限为 \(\widehat{g}(0)\),是有限常数。

有限常数不可能等于无穷大,矛盾,因此假设不成立,\(g(\theta)=\theta^{-1}\) 不存在无偏估计。

补充:正态分布 \(N(\theta,\sigma^2)\) 中,\(g(\theta)=|\theta|\) 同样不存在无偏估计。
这说明:我们研究UMVUE的前提,是待估函数 \(g(\theta)\) 的无偏估计存在。


五、核心知识点系统归纳表

概念名称 核心定义 关键公式 核心性质/说明
偏差(bias) 估计量的估计误差的期望,衡量系统误差 \(\mathrm{bias}[\widehat{g}(X)] = \mathrm{E}_\theta\left[\widehat{g}(X) - g(\theta)\right]\) 偏差>0:平均高估;偏差<0:平均低估;偏差=0:无系统误差
无偏估计(UE) 对所有 \(\theta\in\Theta\),偏差为0的估计量 \(\mathrm{E}_\theta[\widehat{g}(X)] = g(\theta), \forall \theta\in\Theta\) 1. 平均意义下无系统误差;2. 无偏性是全局性质,需对所有参数成立;3. 无偏估计不一定存在
样本均值 样本的算术平均 \(\overline{X} = \frac{1}{n}\sum_{i=1}^n X_i\) 是总体均值 \(\mu\) 的无偏估计,无论总体分布如何(只要期望存在)
样本方差 修正后的样本离散程度统计量 \(S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \overline{X})^2\) 是总体方差 \(\sigma^2\) 的无偏估计,分母n-1用于修正自由度带来的偏差
均方误差(MSE) 平方损失下的风险函数,衡量估计的整体精度 \(\mathrm{MSE}(\widehat{g}(X)) = \mathrm{E}_\theta\left[ \widehat{g}(X) - g(\theta) \right]^2\) 数值越小,估计的整体精度越高
MSE分解公式 总误差拆分为随机误差与系统误差 \(\mathrm{MSE} = \mathrm{Var}_\theta(\widehat{g}) + \left[ \mathrm{bias}(\widehat{g}) \right]^2\) 1. 总误差=方差+偏差平方;2. 无偏估计的MSE等于其方差
一致最小风险无偏估计(UMRUE) 凸损失下,所有无偏估计中风险全局最小的估计量 \(R(\theta,\widehat{g}) \leq R(\theta,\widetilde{g}), \forall \theta\in\Theta\),对任意无偏估计 \(\widetilde{g}\) 成立 平方损失下,UMRUE等价于UMVUE
一致最小方差无偏估计(UMVUE) 无偏估计类中,方差全局最小的估计量 \(\mathrm{Var}_\theta(\widehat{g}) \leq \mathrm{Var}_\theta(\widetilde{g}), \forall \theta\in\Theta\),对任意无偏估计 \(\widetilde{g}\) 成立 无偏估计类中的最优估计量,是参数估计的核心求解目标

posted on 2026-02-24 08:12  Indian_Mysore  阅读(2)  评论(0)    收藏  举报

导航