4.4.1位置尺度参数分布族与线性变换群
位置尺度参数分布族与线性变换群 详细讲解与推导
一、核心基础:位置尺度参数分布族的定义与本质
1. 定义
设n维随机向量 \(X=(X_1,X_2,\dots,X_n)^\mathrm{T}\),若其概率密度函数可表示为如下形式,则称其服从位置尺度参数分布族:
其中:
- \(\mu \in (-\infty,+\infty)\) 为位置参数:作用是对分布进行整体平移,不改变分布的形状与离散程度;
- \(\sigma \in (0,+\infty)\) 为尺度参数:作用是对分布进行整体缩放,不改变分布的位置与形状;
- \(\mathbf{1}=(1,1,\dots,1)^\mathrm{T}\) 为n维全1列向量,保证每个样本分量都完成平移操作;
- \(f(\cdot)\) 为标准分布的密度函数:当 \(\mu=0,\sigma=1\) 时,\(X \sim f(x_1,\dots,x_n)\),称为标准位置尺度分布(如标准正态分布 \(N(0,1)\)、标准均匀分布 \(R(0,1)\) 均为典型的标准分布)。
2. 核心性质:标准化变换的分布不变性
定理:若 \(X \sim P_{(\mu,\sigma)}\)(位置尺度分布族),则 \(Y=\frac{X - \mu \mathbf{1}}{\sigma} \sim P_{(0,1)}\)(标准分布);反之,若 \(Y \sim P_{(0,1)}\),则 \(X=\sigma Y + \mu \mathbf{1} \sim P_{(\mu,\sigma)}\)。
详细证明:
已知 \(X\) 的密度为 \(p_X(x) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)\),做线性变换 \(Y = \frac{X - \mu \mathbf{1}}{\sigma}\),其逆变换为 \(X = \sigma Y + \mu \mathbf{1}\)。
-
计算变换的Jacobi行列式:
对每个分量,\(x_i = \sigma y_i + \mu\),因此Jacobi矩阵为n阶对角矩阵,对角元均为 \(\sigma\),行列式的绝对值为:\[|J| = \left| \frac{\partial(x_1,\dots,x_n)}{\partial(y_1,\dots,y_n)} \right| = \sigma^n \] -
由随机变量密度变换公式 \(p_Y(y) = p_X(\sigma y + \mu \mathbf{1}) \cdot |J|\),代入 \(p_X\) 的表达式:
\[p_X(\sigma y + \mu \mathbf{1}) = \frac{1}{\sigma^n} f\left( \frac{(\sigma y + \mu \mathbf{1}) - \mu \mathbf{1}}{\sigma} \right) = \frac{1}{\sigma^n} f(y) \]因此:
\[p_Y(y) = \frac{1}{\sigma^n} f(y) \cdot \sigma^n = f(y) \]即 \(Y\) 服从标准分布 \(P_{(0,1)}\),正向命题得证。
反向命题同理:对 \(Y \sim f(y)\),做变换 \(X=\sigma Y + \mu \mathbf{1}\),Jacobi行列式绝对值为 \(|J|=\frac{1}{\sigma^n}\),代入密度变换公式可得 \(p_X(x) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)\),即 \(X \sim P_{(\mu,\sigma)}\)。
二、线性变换群的定义与性质
变换群是满足封闭性、结合律、单位元存在、逆元存在的一组变换,位置尺度分布族对应的线性变换群,由平移变换(位置变换)和尺度变换(相似变换)组合而成,也叫仿射线性变换群。
1. 样本空间的线性变换群 \(G\)
设样本空间 \(\mathcal{X}\) 为n维欧氏空间,定义变换集合 \(G = \{ g_{[m,k]} \mid m \in \mathbb{R}, k>0 \}\),其中变换 \(g_{[m,k]}\) 对样本的作用为:
- \(m\) 对应平移变换,实现样本的整体平移;
- \(k>0\) 对应尺度变换,实现样本的整体缩放,保证尺度为正,与 \(\sigma>0\) 匹配。
群性质的验证:
-
封闭性:任取 \(g_{[m_1,k_1]}, g_{[m_2,k_2]} \in G\),变换的复合为:
\[g_{[m_2,k_2]} \circ g_{[m_1,k_1]} (x) = g_{[m_2,k_2]}(m_1 \mathbf{1} + k_1 x) = (m_2 + k_2 m_1) \mathbf{1} + (k_2 k_1) x = g_{[m_2 + k_2 m_1, k_2 k_1]} x \]结果仍属于 \(G\),封闭性成立。
-
结合律:变换的复合天然满足结合律,即 \((g_1 \circ g_2) \circ g_3 = g_1 \circ (g_2 \circ g_3)\)。
-
单位元存在:取 \(m=0,k=1\),则 \(g_{[0,1]} x = x\),为恒等变换,是群的单位元。
-
逆元存在:对任意 \(g_{[m,k]}\),取逆变换 \(g_{[-m/k, 1/k]}\),则:
\[g_{[-m/k, 1/k]} \circ g_{[m,k]} (x) = -\frac{m}{k} \mathbf{1} + \frac{1}{k}(m \mathbf{1} + k x) = x \]逆元存在。
因此 \(G\) 是一个群,称为样本空间的线性变换群。
2. 参数空间的导出群 \(\overline{G}\)
样本空间的变换会诱导出参数空间的变换,称为导出变换,所有导出变换构成的群称为参数空间的导出群 \(\overline{G}\)。
核心定理:位置尺度分布族是线性变换群下的不变分布族
定理:若 \(X \sim P_{(\mu,\sigma)}\),对任意 \(g_{[m,k]} \in G\),令 \(Y = g_{[m,k]} X = m \mathbf{1} + k X\),则 \(Y \sim P_{(\mu',\sigma')}\),其中 \(\mu' = m + k\mu\),\(\sigma' = k\sigma\)。
详细证明:
已知 \(X\) 的密度为 \(p_X(x) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)\),变换 \(Y = m \mathbf{1} + k X\) 的逆变换为 \(X = \frac{Y - m \mathbf{1}}{k}\)。
-
计算Jacobi行列式:
对每个分量 \(x_i = \frac{y_i - m}{k}\),Jacobi矩阵为对角矩阵,对角元均为 \(\frac{1}{k}\),行列式绝对值为:\[|J| = \left( \frac{1}{k} \right)^n = k^{-n} \] -
代入密度变换公式 \(p_Y(y) = p_X\left( \frac{y - m \mathbf{1}}{k} \right) \cdot |J|\),化简密度的核心项:
\[\frac{\frac{y_i - m}{k} - \mu}{\sigma} = \frac{y_i - m - k\mu}{k\sigma} = \frac{y_i - (m + k\mu)}{k\sigma} \]令 \(\mu' = m + k\mu\),\(\sigma' = k\sigma\),则上式可写为 \(\frac{y_i - \mu'}{\sigma'}\)。
-
代入完整密度表达式:
\[p_X\left( \frac{y - m \mathbf{1}}{k} \right) = \frac{1}{\sigma^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) \]因此:
\[p_Y(y) = \frac{1}{\sigma^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) \cdot k^{-n} = \frac{1}{(k\sigma)^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) = \frac{1}{(\sigma')^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) \]即 \(Y \sim P_{(\mu',\sigma')}\),证明完成。
导出群的定义
上述参数的变换即为导出变换,记为 \(\overline{g}_{[m,k]}\),其对参数的作用为:
所有导出变换构成的集合 \(\overline{G} = \{ \overline{g}_{[m,k]} \mid m \in \mathbb{R}, k>0 \}\) 同样满足群的4条性质,称为参数空间的导出群,与样本空间的变换群 \(G\) 同态。
三、同变估计的定义与约束条件
同变估计是不变性原理在参数估计中的核心应用:若样本经过变换 \(g\),则估计量也应经过对应的导出变换 \(g^*\),即满足同变条件:
其中 \(\delta(x)\) 为估计量,\(g^*\) 为判决空间的导出变换。我们分两种核心场景讨论:
1. 场景1:估计参数 \((\mu,\sigma)\)
此时判决空间 \(\mathcal{D}\) 与参数空间 \(\Theta\) 完全一致,因此判决空间的导出群 \(G^* = \overline{G}\),即 \(g^*_{[m,k]} = \overline{g}_{[m,k]}\)。
记 \(\hat{\mu}(x)\) 为 \(\mu\) 的估计量,\(\hat{\sigma}(x)\) 为 \(\sigma\) 的估计量,即 \(\delta(x) = (\hat{\mu}(x), \hat{\sigma}(x))\)。将同变条件展开:
- 左边:\(\delta(g_{[m,k]}x) = \left( \hat{\mu}(m\mathbf{1} + kx), \hat{\sigma}(m\mathbf{1} + kx) \right)\)
- 右边:\(g^*_{[m,k]} \delta(x) = \overline{g}_{[m,k]} (\hat{\mu}(x), \hat{\sigma}(x)) = \left( m + k\hat{\mu}(x), k\hat{\sigma}(x) \right)\)
左右分量对应相等,得到两个核心同变条件:
- 位置参数 \(\mu\) 的同变条件:\[\hat{\mu}(m\mathbf{1} + kx) = m + k\hat{\mu}(x), \quad \forall m \in \mathbb{R}, k>0 \]
- 尺度参数 \(\sigma\) 的同变条件:\[\hat{\sigma}(m\mathbf{1} + kx) = k\hat{\sigma}(x), \quad \forall m \in \mathbb{R}, k>0 \]
同变条件的标准化形式
取特殊值 \(k = \frac{1}{\sigma}\),\(m = -\frac{\mu}{\sigma}\),代入同变条件,可得到更具实用价值的标准化形式:
- 对 \(\mu\) 的估计:\[\hat{\mu}\left( \frac{x - \mu \mathbf{1}}{\sigma} \right) = \frac{\hat{\mu}(x) - \mu}{\sigma} \]
- 对 \(\sigma\) 的估计:\[\hat{\sigma}\left( \frac{x - \mu \mathbf{1}}{\sigma} \right) = \frac{\hat{\sigma}(x)}{\sigma} \]
关键意义:我们已证明 \(Z=\frac{X - \mu \mathbf{1}}{\sigma} \sim P_{(0,1)}\),与参数 \(\mu,\sigma\) 无关,因此同变估计的标准化形式是枢轴量,这是求解最小风险同变估计(MREE)的核心约束。
2. 场景2:估计参数 \(\sigma^r\)(\(r\) 为常数,如 \(r=2\) 估计方差)
此时判决空间 \(\mathcal{D} = (0,+\infty)\),参数变换下 \(\sigma^r \to (\sigma')^r = (k\sigma)^r = k^r \sigma^r\),因此判决空间的导出变换为:
其中 \(d = \widehat{\sigma^r}(x)\) 为 \(\sigma^r\) 的估计量。
代入同变条件 \(\delta(gx) = g^* \delta(x)\),得到 \(\sigma^r\) 的同变条件:
四、同变损失函数的形式与推导
同变损失函数是与同变估计匹配的损失函数,满足变换不变性:参数经过导出变换、判决经过对应导出变换后,损失函数的值保持不变,即:
1. 位置参数 \(\mu\) 的同变损失函数
设 \(d_\mu\) 为 \(\mu\) 的估计,损失函数满足不变性:
取特殊值 \(k = \frac{1}{\sigma}\),\(m = -\frac{\mu}{\sigma}\),代入上式化简:
结论:\(\mu\) 的同变损失函数,一定是标准化估计误差 \(\frac{d_\mu - \mu}{\sigma}\) 的函数,与 \(\mu,\sigma\) 本身无关,仅与相对误差有关。
最常用的均方损失取 \(\rho(t) = t^2\),即:
2. 尺度参数 \(\sigma\) 的同变损失函数
设 \(d_\sigma\) 为 \(\sigma\) 的估计,损失函数满足不变性:
同样取 \(k = \frac{1}{\sigma}\),\(m = -\frac{\mu}{\sigma}\),代入化简得:
结论:\(\sigma\) 的同变损失函数,一定是估计量与真实值的比值 \(\frac{d_\sigma}{\sigma}\) 的函数,与 \(\mu,\sigma\) 本身无关。
最常用的均方损失取 \(\rho(t) = (1-t)^2\),即:
3. 参数 \(\sigma^r\) 的同变损失函数
设 \(d\) 为 \(\sigma^r\) 的估计,损失函数满足不变性:
取 \(k = \frac{1}{\sigma}\),\(m = -\frac{\mu}{\sigma}\),代入化简得:
结论:\(\sigma^r\) 的同变损失函数,是 \(\frac{d}{\sigma^r}\) 的函数,常用均方损失为:
五、核心知识点归纳总结表
| 模块 | 核心内容 | 数学表达 | 关键性质/意义 |
|---|---|---|---|
| 位置尺度参数分布族 | 定义 | \(p(x;\mu,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)\) | \(\mu\) 控制平移,\(\sigma\) 控制缩放,\(f(\cdot)\) 为标准分布密度 |
| 标准化性质 | \(X \sim P_{(\mu,\sigma)} \implies \frac{X - \mu \mathbf{1}}{\sigma} \sim P_{(0,1)}\) | 可将任意位置尺度分布转化为与参数无关的标准分布,是同变估计的基础 | |
| 线性变换群 | 样本空间变换群 \(G\) | \(g_{[m,k]} x = m\mathbf{1} + kx, \ m\in\mathbb{R},k>0\) | 由平移+尺度变换构成,满足群的4条性质,是不变性分析的核心对象 |
| 参数空间导出群 \(\overline{G}\) | \(\overline{g}_{[m,k]} (\mu,\sigma) = (m + k\mu, k\sigma)\) | 样本变换诱导的参数变换,与 \(G\) 同态,证明了位置尺度族是不变分布族 | |
| 不变分布族 | \(X \sim P_{(\mu,\sigma)} \implies g_{[m,k]}X \sim P_{(\overline{g}_{[m,k]}(\mu,\sigma))}\) | 样本经线性变换后,分布仍属于同一位置尺度族,仅参数同步变换 | |
| 同变估计 | \(\mu\) 的同变条件 | \(\hat{\mu}(m\mathbf{1} + kx) = m + k\hat{\mu}(x)\) | 样本平移/缩放,估计量同步平移/缩放 |
| \(\sigma\) 的同变条件 | \(\hat{\sigma}(m\mathbf{1} + kx) = k\hat{\sigma}(x)\) | 样本平移不改变尺度估计,缩放时估计量同步缩放 | |
| \(\sigma^r\) 的同变条件 | \(\widehat{\sigma^r}(m\mathbf{1} + kx) = k^r \widehat{\sigma^r}(x)\) | 样本平移不改变 \(\sigma^r\) 估计,缩放时估计量按 \(k^r\) 同步变换 | |
| 同变损失函数 | \(\mu\) 的同变损失 | \(L(\mu,\sigma;d_\mu) = \rho\left( \frac{d_\mu - \mu}{\sigma} \right)\) | 仅与标准化估计误差有关,常用均方损失为 \(\frac{(d_\mu - \mu)^2}{\sigma^2}\) |
| \(\sigma\) 的同变损失 | \(L(\mu,\sigma;d_\sigma) = \rho\left( \frac{d_\sigma}{\sigma} \right)\) | 仅与估计值和真实值的比值有关,常用均方损失为 \(\frac{(d_\sigma - \sigma)^2}{\sigma^2}\) | |
| \(\sigma^r\) 的同变损失 | \(L(\mu,\sigma;d) = \rho\left( \frac{d}{\sigma^r} \right)\) | 仅与估计值和真实值的比值有关,常用均方损失为 \(\frac{(d - \sigma^r)^2}{\sigma^{2r}}\) |
位置尺度参数的最优同变估计 深度讲解与完整推导
作为深耕数理统计多年的研究员,我将从逻辑本源、完整推导、核心意义三个维度,逐层拆解位置尺度参数最优同变估计的全链条知识,确保你不仅懂公式,更懂背后的统计思想。
一、研究框架与核心前提
我们的研究建立在以下基础框架上,所有推导均围绕该框架展开:
| 核心要素 | 具体定义与说明 |
|---|---|
| 分布族 | 位置尺度参数分布族:\(X=(X_1,\dots,X_n)^\mathrm{T} \sim p(x;\mu,\sigma) = \frac{1}{\sigma^n}f\left( \frac{x-\mu\mathbf{1}}{\sigma} \right)\),其中 \(\mu\in\mathbb{R}\) 为位置参数,\(\sigma>0\) 为尺度参数,\(\mathbf{1}\) 为n维全1向量 |
| 变换群 | 线性变换群 \(G=\{g_{[m,k]}: g_{[m,k]}x = m\mathbf{1}+kx, m\in\mathbb{R},k>0\}\),包含平移变换(\(m\))和尺度变换(\(k\)) |
| 损失函数 | 均方同变损失: \(\mu\) 的损失:\(L(\mu,\sigma;d_\mu)=\frac{(d_\mu-\mu)^2}{\sigma^2}\) \(\sigma\) 的损失:\(L(\mu,\sigma;d_\sigma)=\frac{(d_\sigma-\sigma)^2}{\sigma^2}\) |
| 核心目标 | 在所有满足同变条件的估计量中,找到风险最小的同变估计(MREE,最优同变估计) |
前置核心结论回顾
- 同变条件:
- \(\mu\) 的同变估计满足:\(\hat{\mu}(m\mathbf{1}+kx) = m + k\hat{\mu}(x)\)
- \(\sigma\) 的同变估计满足:\(\hat{\sigma}(m\mathbf{1}+kx) = k\hat{\sigma}(x)\)
- 标准化性质:若 \(X \sim P_{(\mu,\sigma)}\),则 \(Z=\frac{X-\mu\mathbf{1}}{\sigma} \sim P_{(0,1)}\)(标准分布,与 \(\mu,\sigma\) 无关)
- 不变量定义:统计量 \(u(x)\) 若满足 \(u(g_{[m,k]}x)=u(x)\),则称其为线性变换群下的不变量(样本平移缩放后,统计量值不变)
二、同变估计的结构刻画:三大核心引理
要找到最优同变估计,首先要刻画所有同变估计的通用形式,这是三大引理的核心价值。
引理4.4.1 同变估计与不变量的关系
引理内容
设 \(\hat{\mu}_1(x),\hat{\mu}_2(x)\) 是 \(\mu\) 的同变估计,\(\hat{\sigma}_1(x),\hat{\sigma}_2(x)\) 是 \(\sigma\) 的同变估计,则:
是线性变换群下的不变量。
反之,若 \(\hat{\mu}_1(x),\hat{\sigma}_1(x)\) 是同变估计,\(u(x),v(x)\) 是不变量,则:
也是同变估计。
完整证明
正向证明:\(u(x),v(x)\) 是不变量
- 对 \(u(x)\),代入同变条件:
- 对 \(v(x)\),同理代入同变条件:
因此 \(u(x),v(x)\) 满足不变量定义,正向得证。
反向证明:构造的估计量是同变估计
- 对 \(\hat{\mu}_2(x)\),验证同变条件:
- 对 \(\hat{\sigma}_2(x)\),同理验证:
完全满足同变条件,反向得证。
核心意义
该引理揭示:所有同变估计都可以通过一个基准同变估计,叠加不变量的调整得到,将无穷多的同变估计,转化为关于不变量的函数优化问题。
引理4.4.2 不变量的充要条件与最大不变量
核心概念补充:最大不变量
若统计量 \(V(x)\) 满足:
- 自身是不变量;
- 若 \(V(x)=V(y)\),则必存在 \(g\in G\) 使得 \(y=gx\)(两个样本的最大不变量相等,当且仅当它们在同一变换轨道上)。
则称 \(V(x)\) 为最大不变量,它是最精细的不变量,所有不变量都可表示为最大不变量的函数。
引理内容
\(u(x)\) 是线性变换群下的不变量,当且仅当 \(u(x)=\psi(V)\),其中最大不变量:
且不变量的分布仅与标准分布有关,与 \(\mu,\sigma\) 无关(即辅助统计量)。
完整证明
必要性:不变量必为最大不变量的函数
由不变量定义,对任意 \(m,k\),\(u(m\mathbf{1}+kx)=u(x)\)。取特殊值:
对样本做变换 \(g_{[m,k]}x\),得到:
- 第1分量:\(m + kx_1 = 0\)
- 第2分量:\(m + kx_2 = \frac{x_2-x_1}{|x_2-x_1|} = V_2\)
- 第\(i\geq3\)分量:\(m + kx_i = \frac{x_i-x_1}{|x_2-x_1|} = V_2 \cdot \frac{x_i-x_1}{x_2-x_1} = V_2 V_i\)
因此变换后的样本为 \((0, V_2, V_2V_3, \dots, V_2V_n)\),仅与 \(V\) 有关。由不变性:
必要性得证。
充分性:最大不变量的函数是不变量
只需证明 \(V(g_{[m,k]}x)=V(x)\):
- 对 \(V_i=\frac{x_i-x_1}{x_2-x_1} (i\geq3)\):\[V_i(gx) = \frac{(m+kx_i)-(m+kx_1)}{(m+kx_2)-(m+kx_1)} = \frac{k(x_i-x_1)}{k(x_2-x_1)} = V_i(x) \]
- 对 \(V_2=\frac{x_2-x_1}{|x_2-x_1|}\),因 \(k>0\),故:\[V_2(gx) = \frac{k(x_2-x_1)}{|k(x_2-x_1)|} = \frac{x_2-x_1}{|x_2-x_1|} = V_2(x) \]
因此 \(V(gx)=V(x)\),\(V\) 是不变量,故 \(u(x)=\psi(V)\) 也是不变量,充分性得证。
最大不变量的验证
若 \(V(x)=V(y)\),取 \(k=\frac{y_2-y_1}{x_2-x_1}>0\),\(m=y_1 - kx_1\),可验证对所有 \(i\),\(y_i = m + kx_i\),即 \(y=g_{[m,k]}x\),满足最大不变量定义。
分布与参数无关的证明
因 \(V(x)=V\left( \frac{x-\mu\mathbf{1}}{\sigma} \right)\),而 \(\frac{X-\mu\mathbf{1}}{\sigma} \sim P_{(0,1)}\) 与 \(\mu,\sigma\) 无关,故 \(V(X)\) 的分布仅由标准分布决定,与参数无关,是辅助统计量。
核心意义
该引理将所有不变量统一为最大不变量 \(V\) 的函数,且 \(V\) 的分布与参数无关,为后续将风险转化为标准分布下的期望奠定了基础。
引理4.4.3 同变估计的通用表达式
引理内容
设 \(\hat{\mu}(x),\hat{\sigma}(x)\) 是某一组基准同变估计,则任意同变估计都可表示为:
其中 \(\psi(V),\varphi(V)\) 是最大不变量 \(V\) 的函数。
完整证明
对任意同变估计 \(\hat{\mu}^*(x)\),由引理4.4.1,\(u(x)=\frac{\hat{\mu}^*(x)-\hat{\mu}(x)}{\hat{\sigma}(x)}\) 是不变量;再由引理4.4.2,不变量必为 \(V\) 的函数,记为 \(\psi(V)\),因此:
同理,对 \(\hat{\sigma}^*(x)\),\(v(x)=\frac{\hat{\sigma}^*(x)}{\hat{\sigma}(x)}\) 是不变量,记为 \(\varphi(V)\),故 \(\hat{\sigma}^*(x)=\hat{\sigma}(x)\varphi(V)\),证明完成。
核心意义
该引理是整个最优同变估计求解的核心基石:它将“寻找无穷多同变估计中的最优解”,转化为“寻找两个函数 \(\psi(\cdot),\varphi(\cdot)\) 使得风险最小”的有限维优化问题,彻底简化了求解难度。
三、核心定理:Pitman定理(最优同变估计的闭式解)
定理内容
设 \(\hat{\mu}(X),\hat{\sigma}(X)\) 是 \(\mu,\sigma\) 的任意一组同变估计,在均方损失下,\(\mu,\sigma\) 的唯一最优同变估计为:
其中 \(\mathrm{E}_{(0,1)}\) 表示在标准分布 \(P_{(0,1)}\)(\(\mu=0,\sigma=1\))下的期望,且解与基准同变估计的选取无关。
完整推导与证明
我们分三步完成证明:风险的标准化转化、优化求解最优函数、唯一性与无关性证明。
步骤1:风险的标准化转化(同变估计的风险为常数)
同变估计的风险是损失函数的期望,我们利用同变性质,将其转化为标准分布下的期望,消除参数 \(\mu,\sigma\) 的影响。
对 \(\mu\) 的同变估计风险
任一同变估计 \(\hat{\mu}^*(X) = \hat{\mu}(X) + \hat{\sigma}(X)\psi(V)\),均方损失为 \(L=\left( \frac{\hat{\mu}^* - \mu}{\sigma} \right)^2\),风险为:
令 \(Z=\frac{X-\mu\mathbf{1}}{\sigma} \sim P_{(0,1)}\),由同变条件:
- \(\hat{\mu}(X) = \hat{\mu}(\sigma Z + \mu\mathbf{1}) = \mu + \sigma \hat{\mu}(Z)\)
- \(\hat{\sigma}(X) = \hat{\sigma}(\sigma Z + \mu\mathbf{1}) = \sigma \hat{\sigma}(Z)\)
- \(V(X)=V(Z)\)(\(V\) 是不变量)
因此:
风险可改写为标准分布下的期望:
该期望与 \(\mu,\sigma\) 完全无关,是常数。
对 \(\sigma\) 的同变估计风险
任一同变估计 \(\hat{\sigma}^*(X) = \hat{\sigma}(X)\varphi(V)\),均方损失为 \(L=\left( \frac{\hat{\sigma}^*}{\sigma} - 1 \right)^2\),同理可得:
风险为:
同样与 \(\mu,\sigma\) 无关。
步骤2:最小化期望,求解最优函数 \(\psi^*(V),\varphi^*(V)\)
我们利用期望迭代法则 \(\mathrm{E}[W] = \mathrm{E}\left[ \mathrm{E}[W \mid V] \right]\),将期望拆分为条件期望,转化为一元二次函数的最小值问题。
求解 \(\mu\) 的最优 \(\psi^*(V)\)
将风险改写为:
给定 \(V\) 时,\(\psi(V)\) 是常数,展开条件期望:
这是关于 \(\psi\) 的一元二次函数,\(A>0\),最小值在 \(\psi = -\frac{B}{2A}\) 处取得,因此最优解为:
代入同变估计表达式,得到 \(\mu\) 的最优同变估计,即式(4.4.9)。
求解 \(\sigma\) 的最优 \(\varphi^*(V)\)
同理,将风险改写为:
展开条件期望:
一元二次函数最小值在 \(\varphi = \frac{B}{2A}\) 处取得,因此最优解为:
代入同变估计表达式,得到 \(\sigma\) 的最优同变估计,即式(4.4.10)。
步骤3:唯一性与基准无关性证明
- 唯一性:一元二次函数的最小值点唯一,因此 \(\psi^*(V),\varphi^*(V)\) 唯一,最优同变估计唯一。
- 基准无关性:若选取另一组基准同变估计 \(\hat{\mu}_1 = \hat{\mu} + \hat{\sigma}\psi_0(V)\),\(\hat{\sigma}_1 = \hat{\sigma}\varphi_0(V)\),代入最优公式后,\(\psi_0(V),\varphi_0(V)\) 会完全抵消,最终结果与原基准完全一致(详细推导见附录)。
四、三大实用推论
Pitman定理给出了通用解,三个推论则针对不同场景大幅简化计算。
推论1 最简基准同变估计的闭式解
取最简单的基准同变估计 \(\hat{\mu}(X)=X_1\),\(\hat{\sigma}(X)=|X_2-X_1|\),代入Pitman定理得:
意义:无需构造复杂的基准估计,直接用样本分量即可求解最优同变估计。
推论2 \(\sigma^r\) 的最优同变估计
若 \(\delta(X)\) 是 \(\sigma^r\) 的同变估计(满足 \(\delta(m\mathbf{1}+kx)=k^r\delta(x)\)),则 \(\sigma^r\) 的最优同变估计为:
意义:将最优同变估计推广到 \(\sigma\) 的任意幂次(如方差 \(\sigma^2\)、标准差 \(\sigma\)),推导逻辑与 \(\sigma\) 完全一致。
推论3 完备充分统计量下的简化公式
若 \(T=T(X)\) 是分布族的完备充分统计量,且基准同变估计可表示为 \(\hat{\mu}(X)=a(T)\),\(\hat{\sigma}(X)=b(T)\),则Pitman定理中的条件期望可替换为无条件期望。
证明核心
由Basu定理:完备充分统计量与辅助统计量独立。我们已证明 \(V\) 是辅助统计量,因此 \(T\) 与 \(V\) 独立,条件期望等于无条件期望:
意义:对于指数族分布(正态、伽马、指数分布等),可直接通过完备充分统计量简化计算,无需求解复杂的条件期望,是实际应用中最常用的结论。
五、典型应用案例
案例1 正态分布 \(N(\mu,\sigma^2)\) 的最优同变估计
设 \(X_1,\dots,X_n\) iid,\(X_1 \sim N(\mu,\sigma^2)\),求 \((\mu,\sigma^2)\) 的最优同变估计。
求解步骤
- 完备充分统计量:\(T=(\bar{X}, S^2)\),其中 \(\bar{X}=\frac{1}{n}\sum X_i\),\(S^2=\sum_{i=1}^n (X_i-\bar{X})^2\)
- 基准同变估计:
- \(\hat{\mu}(X)=\bar{X}\),满足同变条件 \(\bar{X}(m\mathbf{1}+kx)=m+k\bar{X}\)
- \(\hat{\sigma^2}(X)=S^2\),满足同变条件 \(S^2(m\mathbf{1}+kx)=k^2S^2\)
- 标准分布下的期望(\(\mu=0,\sigma=1\)):
- \(\bar{X} \sim N(0,1/n)\),\(\mathrm{E}[\bar{X}]=0\),且 \(\bar{X}\) 与 \(S^2\) 独立
- \(S^2 \sim \chi^2(n-1)\),\(\mathrm{E}[S^2]=n-1\),\(\mathrm{E}[(S^2)^2]=(n-1)(n+1)\)
- 代入推论3求解:
- \(\mu\) 的最优估计:\(\hat{\mu}^*(X) = \bar{X} - S \cdot \frac{\mathrm{E}[\bar{X}S]}{\mathrm{E}[S^2]} = \bar{X}\)(因 \(\mathrm{E}[\bar{X}]=0\))
- \(\sigma^2\) 的最优估计:\(\widehat{\sigma^2}^*(X) = S^2 \cdot \frac{\mathrm{E}[S^2]}{\mathrm{E}[(S^2)^2]} = \frac{1}{n+1}S^2\)
结果对比
| 估计类型 | \(\mu\) 的估计 | \(\sigma^2\) 的估计 |
|---|---|---|
| 最优同变估计(MREE) | \(\bar{X}\) | \(\frac{S^2}{n+1}\) |
| 最大似然估计(MLE) | \(\bar{X}\) | \(\frac{S^2}{n}\) |
| 无偏估计(UMVUE) | \(\bar{X}\) | \(\frac{S^2}{n-1}\) |
结论:在均方损失下,\(\frac{S^2}{n+1}\) 的风险小于MLE和无偏估计,是最优的。
案例2 平移指数分布的最优同变估计
设 \(X_1,\dots,X_n\) iid,\(X_1 \sim \mu + \text{Exp}(1/\sigma)\)(平移指数分布),求 \((\mu,\sigma)\) 的最优同变估计。
求解步骤
- 完备充分统计量:\(T=(X_{(1)}, S)\),其中 \(X_{(1)}=\min X_i\),\(S=\sum_{i=1}^n (X_i - X_{(1)})\)
- 基准同变估计:\(\hat{\mu}(X)=X_{(1)}\),\(\hat{\sigma}(X)=S\),均满足同变条件
- 标准分布下的期望(\(\mu=0,\sigma=1\)):
- \(X_{(1)} \sim \text{Exp}(n)\),\(\mathrm{E}[X_{(1)}]=1/n\)
- \(S \sim \Gamma(n-1,1)\),\(\mathrm{E}[S]=n-1\),\(\mathrm{E}[S^2]=n(n-1)\)
- \(X_{(1)}\) 与 \(S\) 独立
- 代入推论3求解:
- \(\mu\) 的最优估计:\(\hat{\mu}^*(X) = X_{(1)} - S \cdot \frac{\mathrm{E}[X_{(1)}S]}{\mathrm{E}[S^2]} = X_{(1)} - \frac{1}{n^2}S\)
- \(\sigma\) 的最优估计:\(\hat{\sigma}^*(X) = S \cdot \frac{\mathrm{E}[S]}{\mathrm{E}[S^2]} = \frac{1}{n}S\)
结果对比
| 估计类型 | \(\mu\) 的估计 | \(\sigma\) 的估计 |
|---|---|---|
| 最优同变估计(MREE) | \(X_{(1)} - \frac{S}{n^2}\) | \(\frac{S}{n}\) |
| 最大似然估计(MLE) | \(X_{(1)}\) | \(\frac{S}{n}\) |
| 无偏估计(UMVUE) | \(X_{(1)} - \frac{S}{n(n-1)}\) | \(\frac{S}{n-1}\) |
结论:在均方损失下,MREE的风险显著优于MLE和UMVUE。
六、全知识点归纳总结表
| 模块 | 核心内容 | 关键结论 | 核心意义 |
|---|---|---|---|
| 基础概念 | 位置尺度分布族、线性变换群、同变条件、不变量 | 同变估计随样本同步变换,不变量不随样本变换改变 | 定义研究对象的基本规则,明确同变估计的约束条件 |
| 引理4.4.1 | 同变估计与不变量的关系 | 两个同变估计的差/比是不变量,用不变量可构造新的同变估计 | 建立同变估计与不变量的联系,为刻画同变估计结构铺垫 |
| 引理4.4.2 | 最大不变量与不变量的充要条件 | 所有不变量都是最大不变量 \(V\) 的函数,\(V\) 的分布与参数无关 | 统一不变量的表达形式,消除参数对不变量分布的影响 |
| 引理4.4.3 | 同变估计的通用表达式 | 任一同变估计都可表示为基准同变估计+不变量的调整 | 将无穷维的估计问题转化为有限维的函数优化问题 |
| Pitman定理 | 最优同变估计的闭式解 | 均方损失下,唯一最优同变估计由标准分布下的条件期望给出 | 给出最优同变估计的通用求解公式,是整个理论的核心 |
| 推论1 | 最简基准估计的解 | 用 \(X_1\) 和 $ | X_2-X_1 |
| 推论2 | \(\sigma^r\) 的最优估计 | 推广到 \(\sigma\) 的任意幂次,公式形式与 \(\sigma\) 一致 | 拓展最优同变估计的适用范围 |
| 推论3 | 完备充分统计量下的简化 | 条件期望可替换为无条件期望,大幅简化计算 | 解决实际应用中的计算难题,是工程中最常用的结论 |
| 应用案例 | 正态分布、平移指数分布的MREE | MREE在均方损失下的风险小于MLE和UMVUE | 验证理论的实用性,展示最优同变估计的优势 |
附录:基准无关性的详细推导
设新基准同变估计为 \(\hat{\mu}_1 = \hat{\mu} + \hat{\sigma}\psi_0(V)\),\(\hat{\sigma}_1 = \hat{\sigma}\varphi_0(V)\),代入Pitman公式:
与原基准的结果完全一致,基准无关性得证。
Pitman积分公式 深度讲解与完整推导
作为深耕数理统计领域的资深研究员,我将从公式本质、完整证明、核心解读、应用验证四个维度,系统拆解Pitman积分公式,让你不仅掌握公式形式,更理解其统计思想与应用逻辑。
一、定理核心内容与前置背景
1. 前置背景回顾
我们已经知道,位置尺度参数分布族的联合密度为:
其中 \(\mu\in\mathbb{R}\) 为位置参数,\(\sigma>0\) 为尺度参数,\(f(\cdot)\) 是 \(\mu=0,\sigma=1\) 时的标准分布密度。
此前我们通过Pitman定理得到了最优同变估计的条件期望形式,但该形式需要先选取基准同变估计、计算复杂的条件期望,Pitman积分公式则彻底解决了这个问题——直接通过样本密度的二重积分,一步算出最优同变估计,无需任何前置构造。
2. 定理4.4.2(Pitman积分公式)
设样本 \(X=(X_1,\dots,X_n)^\mathrm{T}\) 服从上述位置尺度参数分布族,在均方损失下,\(\mu\) 和 \(\sigma\) 的唯一最优同变估计(MREE)为:
二、完整严谨的证明过程
证明的核心思路:从之前的最优同变估计条件期望形式出发,通过样本变换、条件密度展开、变量替换,最终将条件期望转化为关于 \(\mu,\sigma\) 的二重积分。
步骤1:从基准同变估计的最优形式出发
根据之前的推论1,取最简单的基准同变估计 \(\hat{\mu}(X)=X_1\),\(\hat{\sigma}(X)=|X_2-X_1|\),则最优同变估计为:
其中最大不变量 \(V=(V_2,V_3,\dots,V_n)\),\(V_2=\frac{X_2-X_1}{|X_2-X_1|}=\pm1\),\(V_i=\frac{X_i-X_1}{X_2-X_1} \ (i\geq3)\),\(\mathrm{E}_{(0,1)}\) 表示标准分布(\(\mu=0,\sigma=1\))下的期望。
步骤2:样本变换与联合密度分解
为了计算条件期望,我们对样本做一一变换,将样本分解为「自由变量」和「不变量」:
其逆变换为:
计算该变换的Jacobi行列式绝对值:通过分块矩阵计算可得 \(|J|=|U_2|^{n-2}\),因此标准分布下 \((U_1,U_2,V)\) 的联合密度为:
其中 \(f(\cdot)\) 是标准分布的联合密度。
步骤3:条件期望的积分展开
根据条件密度公式,给定 \(V\) 时,\((U_1,U_2)\) 的条件密度为联合密度除以 \(V\) 的边缘密度,因此条件期望可展开为:
两者相除,分母的边缘密度抵消,化简得:
步骤4:变量替换,转化为关于 \(\mu,\sigma\) 的积分
我们做核心变量替换,将标准化变量 \((u_1,u_2)\) 转化为参数 \((\mu,\sigma)\):
其逆变换为 \(\mu = X_1 - \sigma u_1\),\(\sigma = \frac{|X_2 - X_1|}{|u_2|}\),计算Jacobi行列式绝对值:
同时,根据位置尺度密度的定义,有:
将上述结果代入式(5)的分子和分母:
分子化简
分母化简
步骤5:代入最优估计表达式,完成证明
将分子分母代入式(3),\(|X_2-X_1|\) 项完全抵消:
\(\mu\) 的最优估计公式得证。
同理,将 \(\mathrm{E}[|U_2| \mid V]\) 做相同的变量替换和化简,代入式(4),即可得到 \(\sigma\) 的最优估计公式,证明完成。
三、核心解读与关键说明
1. 公式的本质:贝叶斯后验期望
Pitman积分公式本质上是无信息先验下的贝叶斯后验期望:
- 位置尺度参数的Jeffreys无信息先验为 \(\pi(\mu,\sigma) = \sigma^{-2}\)
- 似然函数为 \(L(\mu,\sigma|X) = p(X;\mu,\sigma)\)
- 后验密度为 \(\pi(\mu,\sigma|X) \propto \sigma^{-2} p(X;\mu,\sigma)\)
此时:
- \(\mu\) 的后验期望为 \(\mathrm{E}[\mu|X] = \frac{\int\int \mu \cdot \sigma^{-2} p \mathrm{d}\mu \mathrm{d}\sigma}{\int\int \sigma^{-2} p \mathrm{d}\mu \mathrm{d}\sigma}\),与公式(1)仅差一个 \(\sigma^{-1}\) 的常数权重,本质完全一致;
- 这也解释了为什么Pitman积分公式得到的估计是最优的——它同时满足同变性和最小均方风险,是频率派与贝叶斯派结果的完美统一。
2. 核心优势与适用范围
| 优势 | 具体说明 |
|---|---|
| 通用性极强 | 对所有位置尺度分布族均成立,无论是否存在充分统计量,无论分布是连续型还是离散型(离散型将积分替换为求和即可) |
| 计算门槛低 | 无需构造基准同变估计、无需计算复杂的条件期望,仅需代入样本密度做二重积分,可直接编程实现 |
| 结果唯一最优 | 得到的估计是均方损失下唯一的最小风险同变估计,在同变估计类中风险全局最小 |
3. 使用前提
公式的使用前提是积分收敛,即分母的积分:
对于正态分布、均匀分布、平移指数分布、拉普拉斯分布等绝大多数常见位置尺度分布,该积分均收敛。
四、应用验证:正态分布的最优同变估计
我们以正态分布为例,用Pitman积分公式计算最优同变估计,验证其与之前结论的一致性。
设 \(X_1,\dots,X_n\) 独立同分布,\(X_1 \sim N(\mu,\sigma^2)\),样本联合密度为:
1. 计算 \(\mu\) 的最优同变估计
首先计算分母 \(D = \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu\)。
利用平方和分解 \(\sum_{i=1}^n (X_i-\mu)^2 = n(\mu-\bar{X})^2 + S^2\)(其中 \(\bar{X}\) 为样本均值,\(S^2=\sum (X_i-\bar{X})^2\)),内层关于 \(\mu\) 的积分是正态分布的全积分:
代入分母得:
再计算分子 \(N_\mu = \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \mu \sigma^{-3} p \mathrm{d}\mu\),内层积分是正态分布的期望乘以全积分:
因此 \(N_\mu = \bar{X} \cdot D\),最终:
与之前的结论完全一致。
2. 计算 \(\sigma^2\) 的最优同变估计
根据推论2,\(\sigma^r\) 的最优同变估计可推广为:
取 \(r=2\),代入计算可得:
与之前的结论完全一致,验证了Pitman积分公式的正确性。
五、核心知识点归纳总结表
| 项目 | 核心内容 |
|---|---|
| 公式名称 | Pitman积分公式 |
| 适用场景 | 位置尺度参数分布族下,均方损失函数的最优同变估计求解 |
| 核心公式 | \(\hat{\mu}^*(X) = \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \mu \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}\) \(\hat{\sigma}^*(X) = \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-2} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}\) |
| 本质 | 位置尺度参数Jeffreys无信息先验下的贝叶斯后验期望 |
| 核心优势 | 通用性强、无需构造基准估计、计算流程标准化、结果全局最优 |
| 推广形式 | \(\sigma^r\) 的最优同变估计:\(\widehat{\sigma^r}^*(X) = \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{r-2} p \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-2} p \mathrm{d}\mu \mathrm{d}\sigma}\) |
| 使用前提 | 积分收敛,即分母的二重积分有限 |
posted on 2026-02-26 09:54 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号