正态总体中标准化单样本残差的分布推导

摘要

本文完整推导了从正态总体 \(N(\mu, \sigma^2)\) 中抽取的样本中,单个标准化残差 \(W = (X_1 - \bar{X}) / \sqrt{\sum(X_i - \bar{X})^2}\) 的概率密度函数。本文将通过两种截然不同的方法——其一为基于赫尔默特变换与旋转不变性的常规方法,其二为基于贝叶斯定理的精妙方法——殊途同归地证明该统计量的概率密度函数,并详细展开所有推导步骤。

1. 问题陈述

问题背景

\(X_1, X_2, \dots, X_n\) (其中样本量 \(n>2\)) 是来自正态分布总体 \(N(\mu, \sigma^2)\) 的一组简单随机样本。

定义样本均值 \(\bar{X}\)

\[\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i \]

定义离差平方和 (Sum of Squared Deviations) \(S_{SS}^2\)

\[S_{SS}^2 = \sum_{i=1}^{n}(X_i - \bar{X})^2 \]

求解目标

求统计量 \(W\) 的概率密度函数 (PDF):

\[W = \frac{X_1 - \bar{X}}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2}} \]

2. 完整推导过程

方法一:基于赫尔默特变换与旋转不变性

该方法是解决此类问题的最常规、最直观的途径之一,它利用了线性代数和多元正态分布的几何性质。

第一步:问题的简化

首先证明该统计量的分布与总体参数 \(\mu, \sigma\) 无关。定义标准化变量 \(Y_i = (X_i - \mu) / \sigma \sim N(0,1)\)

\[W = \frac{\sigma(Y_1 - \bar{Y})}{\sigma \sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}} = \frac{Y_1 - \bar{Y}}{\sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \]

因此,不失一般性,我们假设样本 \(X_i\) 来自标准正态分布 \(N(0, 1)\)

第二步:赫尔默特 (Helmert) 正交变换

我们引入一个 \(n \times n\) 的正交矩阵 \(A\) (即 \(A^TA=I\)),对原始样本向量 \(X\) 进行线性变换,得到新向量 \(V=AX\)\(V\) 的分量 \(V_1, \dots, V_n\) 是相互独立的标准正态随机变量。我们构造 \(A\) 使其最后一行 \(A_{n,j} = 1/\sqrt{n}\),从而得到 \(V_n = \sqrt{n} \bar{X}\)

第三步:用新变量表示统计量的各部分

  1. 分母的推导:

    \[\sum_{i=1}^{n}(X_i - \bar{X})^2 = \sum X_i^2 - n\bar{X}^2 = \left(\sum V_i^2\right) - n\left(\frac{V_n}{\sqrt{n}}\right)^2 = \sum_{i=1}^{n-1} V_i^2 \]

  2. 分子的推导:

    \[X_1 - \bar{X} = \sum_{i=1}^{n} A_{i,1} V_i - \frac{V_n}{\sqrt{n}} = \sum_{i=1}^{n-1} A_{i,1} V_i \]

    令系数 \(c_i = A_{i,1}\)。可推导出:

    \[\sum_{i=1}^{n-1} c_i^2 = 1 - (1/\sqrt{n})^2 = \frac{n-1}{n} \]

第四步:利用旋转不变性的严格数学证明

此时,统计量 \(W\) 可表示为函数 \(W(V) = \frac{c^T V}{\|V\|}\),其中 \(V \sim N_{n-1}(0, I_{n-1})\)。根据标准多元正态分布的旋转不变性,我们可以选择一个“最优”的坐标系来简化表达式,而不改变其分布。

我们构造一个正交矩阵 \(Q\),使得 \(c\) 向量的方向与新坐标系的第一个基向量 \(e_1\) 对齐。在该新坐标系下,随机向量为 \(U=QV \sim N_{n-1}(0,I_{n-1})\)
\(W\) 在分布上等同于 \(W(Q^T U) = \frac{(Qc)^T U}{\|U\|} = \frac{\|c\| U_1}{\|U\|}\)
代入 \(\|c\|\)\(\|U\|\) 的表达式,可得 \(W\) 在分布上等同于:

\[\frac{\sqrt{\frac{n-1}{n}} U_1}{\sqrt{U_1^2 + \sum_{i=2}^{n-1} U_i^2}} \]

第五步:关联贝塔 (Beta) 分布并进行精确求解

  1. 建立关系与确认分布:
    \(T^2 = \sum_{i=2}^{n-1} U_i^2\),则 \(T^2 \sim \chi^2_{n-2}\)。同时 \(U_1^2 \sim \chi^2_1\),且两者独立。我们有:

    \[W^2 = \frac{n-1}{n} \left( \frac{U_1^2}{U_1^2 + T^2} \right) \]

    \(B = \frac{U_1^2}{U_1^2 + T^2}\),则 \(B \sim \text{Beta}(\frac{1}{2}, \frac{n-2}{2})\)。其 PDF 为:

    \[f_B(b) = \frac{b^{-1/2}(1-b)^{(n-4)/2}}{B(1/2, (n-2)/2)}, \quad b \in (0,1) \]

  2. 第一次变量变换 (从 \(B\)\(Y=W^2\)):
    \(Y = W^2 = \frac{n-1}{n} B\)。反向关系为 \(B = \frac{n}{n-1} Y\), Jacobian 行列式 \(\operatorname{det}(\frac{dB}{dY}) = \frac{n}{n-1}\)

    \[f_Y(y) = f_B\left(\frac{ny}{n-1}\right) \cdot \frac{n}{n-1} = \frac{(\frac{ny}{n-1})^{-1/2}(1-\frac{ny}{n-1})^{(n-4)/2}}{B(1/2, (n-2)/2)} \cdot \frac{n}{n-1} \]

    \[f_Y(y) = \frac{\sqrt{n}}{\sqrt{n-1}} \frac{y^{-1/2}(1-\frac{ny}{n-1})^{(n-4)/2}}{B(1/2, (n-2)/2)} \]

  3. 第二次变量变换 (从 \(Y=W^2\)\(W\)):
    由于 \(W\) 分布的对称性,其 PDF \(f_W(w)\)\(Y\) 的 PDF \(f_Y(y)\) 存在关系 \(f_W(w) = |w| f_Y(w^2)\)。代入上式:

    \[f_W(w) = |w| \cdot \left[ \frac{\sqrt{n}}{\sqrt{n-1}} \frac{(w^2)^{-1/2}(1-\frac{nw^2}{n-1})^{(n-4)/2}}{B(1/2, (n-2)/2)} \right] \]

    由于 \((w^2)^{-1/2} = 1/|w|\),该项与 \(|w|\) 抵消。

    \[f_W(w) = \frac{\sqrt{n}}{\sqrt{n-1}} \frac{(1-\frac{nw^2}{n-1})^{(n-4)/2}}{B(1/2, (n-2)/2)} = \frac{\Gamma(\frac{n-1}{2})}{\Gamma(\frac{1}{2})\Gamma(\frac{n-2}{2})} \sqrt{\frac{n}{n-1}} \left(1-\frac{nw^2}{n-1}\right)^{(n-4)/2} \]

方法二:基于贝叶斯定理

该方法在频率派框架下巧妙地运用了贝叶斯定理,通过求解条件分布来解决问题。具体地,先求出在给定完备充分统计量 \((\bar{X}, S^2)\)\(X_1\) 的条件分布 \(f_{X_1|\bar{X},S^2}\),然后通过变量变换得到 \(W\) 的分布。

第一步:框架设定

根据贝叶斯定理:

\[f_{X_1|\bar{X},S^2}(x_1|\bar{x},s^2) = \frac{f_{\bar{X},S^2|X_1}(\bar{x},s^2|x_1) \cdot f_{X_1}(x_1)}{f_{\bar{X},S^2}(\bar{x},s^2)} \]

其中 \(S^2 = \frac{S_{SS}^2}{n-1}\)

第二步:计算条件分布 \(f_{\bar{X},S^2|X_1}\)

  1. 定义辅助统计量:
    给定 \(X_1=x_1\),考察其余 \(n-1\) 个样本 \((X_2, \dots, X_n)\) 的均值 \(W_1 = \bar{X}'=\frac{1}{n-1}\sum_{i=2}^{n} X_i\) 和离差平方和 \(W_2=\sum_{i=2}^{n} (X_i - \bar{X}')^2\)\(W_1\)\(W_2\)\(X_1\) 独立,其分布为 \(W_1 \sim N(\mu, \frac{\sigma^2}{n-1})\)\(\frac{W_2}{\sigma^2} \sim \chi^2_{n-2}\)

  2. 建立变量关系:

    • \(W_1 = \frac{n\bar{X} - x_1}{n-1}\)
    • \(W_2 = (n-1)S^2 - \frac{n(x_1-\bar{X})^2}{n-1}\)
  3. 变量变换:
    \(f_{\bar{X},S^2|X_1}(\bar{x},s^2|x_1) = f_{W_1,W_2}(w_1, w_2) \cdot |\det(J)|\),其中 Jacobian 行列式 \(\det(J) = \det \begin{pmatrix} \frac{n}{n-1} & 0 \\ \frac{2n(x_1-\bar{x})}{n-1} & n-1 \end{pmatrix}= n\)

第三步:参数抵消的完整过程

A. 指数项的详细化简
整个表达式中所有指数项的组合的指数为 \(E = E_{num} - E_{den}\)

  • 分子指数: \(E_{num} = -\frac{1}{2\sigma^2} \left[ (n-1)(w_1-\mu)^2 + w_2 + (x_1-\mu)^2 \right] = -\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2\)
  • 分母指数: \(E_{den} = -\frac{1}{2\sigma^2} \left[ n(\bar{x}-\mu)^2 + (n-1)s^2 \right] = -\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2\)
    由于 \(E_{num} = E_{den}\),所有指数项精确抵消。

B. 系数项的直接化简
所有与 \(\mu, \sigma^2\) 无关的系数项的比值为:

\[\frac{ \left[ \frac{\sqrt{n-1}}{\sqrt{2\pi}\sigma} \right] \left[ \frac{(w_2)^{\frac{n-4}{2}}}{\Gamma(\frac{n-2}{2})(2\sigma^2)^{\frac{n-2}{2}}} \right] [n] \left[ \frac{1}{\sqrt{2\pi}\sigma} \right] }{ \left[ \frac{\sqrt{n}}{\sqrt{2\pi}\sigma} \right] \left[ \frac{(\frac{n-1}{2\sigma^2})^{\frac{n-1}{2}} (s^2)^{\frac{n-3}{2}}}{\Gamma(\frac{n-1}{2})} \right] } \]

化简并代入 \(w_2=(n-1)s^2\left(1 - \frac{n(x_1-\bar{x})^2}{(n-1)^2 s^2}\right)\),最终得到 \(X_1\) 的条件 PDF:

\[f_{X_1|\bar{X},S^2}(x_1|\bar{x},s^2) = \frac{\Gamma(\frac{n-1}{2})}{\sqrt{\pi(n-1)}\Gamma(\frac{n-2}{2})} \frac{1}{s\sqrt{\frac{n-1}{n}}} \left(1 - \frac{n(x_1-\bar{x})^2}{(n-1)^2 s^2}\right)^{(n-4)/2} \]

其支撑集为 \(|x_1 - \bar{x}| < s \frac{n-1}{\sqrt{n}}\)

第四步:最终变量变换,从 \(X_1\) 推导 \(W\)

  1. 变换关系: \(w = \frac{x_1 - \bar{x}}{\sqrt{\sum(x_i-\bar{x})^2}} = \frac{x_1 - \bar{x}}{s\sqrt{n-1}}\)
  2. 反向关系与 Jacobian 行列式: \(x_1 = \bar{x} + w s\sqrt{n-1}\),因此 \(\det(J)=\frac{dx_1}{dw} = s\sqrt{n-1}\)
  3. 应用变量变换公式 \(f_W(w) = f_{X_1}(x_1(w)) \left|\frac{dx_1}{dw}\right|\) 并化简:

    \[f_W(w) = \left[ \frac{\Gamma(\frac{n-1}{2})}{\sqrt{\pi(n-1)}\Gamma(\frac{n-2}{2})} \frac{1}{s\sqrt{\frac{n-1}{n}}} \left(1 - \frac{n(ws\sqrt{n-1})^2}{(n-1)^2 s^2}\right)^{(n-4)/2} \right] \cdot (s\sqrt{n-1}) \]

    化简后即得到最终结论。

3. 最终结论

两种截然不同的推导方法都指向了同一个结果,这有力地验证了结论的正确性。统计量 \(W\) 的概率密度函数为:

\[f(w) = \frac{\Gamma(\frac{n-1}{2})}{\Gamma(\frac{1}{2}) \Gamma(\frac{n-2}{2})} \sqrt{\frac{n}{n-1}} \left(1 - \frac{nw^2}{n-1}\right)^{(n/2)-2}, \quad |w| < \sqrt{\frac{n-1}{n}}. \]

posted @ 2025-10-17 12:24  |烟岚云岫|  阅读(9)  评论(0)    收藏  举报