三大分布

三大分布

0.简介

卡方分布 $ \chi^2$分布

  • 统计量的构造

\[ \chi^2 = x_1^2 + x_2^2 + \cdots + x_n^2 \]

  • 抽样分布密度函数

\[ p(y) = \frac{1}{\Gamma\left(\frac{n}{2}\right)2^{n/2}} y^{\frac{n}{2}-1} e^{-\frac{y}{2}} \quad (y > 0) \]

  • 期望

\[ n \]

  • 方差

\[ 2n \]

F分布

  • 统计量的构造

\[ F = \frac{(y_1^2 + y_2^2 + \cdots + y_m^2)/m}{(x_1^2 + x_2^2 + \cdots + x_n^2)/n} \]

  • 抽样分布密度函数

\[ p(y) = \frac{\Gamma\left(\frac{m + n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)} \left(\frac{m}{n}\right)^{\frac{m}{2}} y^{\frac{m}{2}-1} \left(1 + \frac{m}{n}y\right)^{-\frac{m + n}{2}} \quad (y > 0) \]

  • 期望

\[ \frac{n}{n - 2} \quad (n > 2) \]

  • 方差

\[ \frac{2n^2(m + n - 2)}{m(n - 2)^2(n - 4)} \quad (n > 4) \]

t分布

  • 统计量的构造

\[ t = \frac{y_1}{\sqrt{(x_1^2 + x_2^2 + \cdots + x_n^2)/n}} \]

  • 抽样分布密度函数

\[ p(y) = \frac{\Gamma\left(\frac{n + 1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)} \left(1 + \frac{y^2}{n}\right)^{-\frac{n + 1}{2}} \quad (-\infty < y < \infty) \]

  • 期望

\[ 0 \quad (n > 1) \]

  • 方差

\[ \frac{n}{n - 2} \quad (n > 2) \]

1.卡方分布 $ \chi^2$分布

1.1 卡方分布定义

如果 $ X_1, X_2, \ldots, X_n $ 是 $ n $ 个独立同分布的标准正态随机变量(即每个 $ X_i $ 都服从 $ N(0,1) $),则它们的平方和 $ \chi^2 = X_1^2 + X_2^2 + \ldots + X_n^2 $ 服从自由度为 $ n $ 的卡方分布,记为 $ \chi^2(n) $。

卡方分布与伽马分布的关系
如果随机变量 $ X $ 服从标准正态分布 $ N(0,1) $,则 $ X^2 $ 服从伽马分布 \(\ Ga(1/2, 1/2)\) 。根据伽马分布的可加性,$ X^2 $ 服从 $ Ga(n/2, 1/2) $,这表明 $ \chi^2(n) $ 分布是伽马分布的一个特例。

1.2 卡方分布的密度函数

卡方分布的概率密度函数(PDF)为:

\[p(y) = \frac{(1/2)^{n/2}}{\Gamma(n/2)} y^{(n/2 - 1)} e^{-y/2}, \quad y > 0 \]

其中,$ \Gamma(n/2) $ 是伽马函数,$ (1/2)^{n/2} $ 是归一化因子,确保积分为1。

卡方分布的性质

  • 期望:$ E(\chi^2(n)) = n $,表示卡方分布的期望等于自由度 $ n $。
  • 方差:$ Var(\chi^2(n)) = 2n $,表示卡方分布的方差是自由度的两倍。

1.3 图像特征

卡方分布的图像是一个偏态分布,只取非负值。其形状取决于自由度 $ n $,较大的 $ n $ 值会使分布更接近正态分布。

image-20241207003830752

1.4 有用的定理

定理

\(x_1, x_2, \cdots, x_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的样本,其样本均值和样本方差分别为

\(\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_i \quad \text{和} \quad s^2 = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_i - \bar{x})^2\)

则有:

  1. \(\bar{x}\)\(s^2\)相互独立;
  2. \(\bar{x} \sim N(\mu, \frac{\sigma^2}{n})\)
  3. \((n-1)s^2 \sim \chi^2(n-1)\)
解释
  1. \(\bar{x}\)\(s^2\) 相互独立

    • 在正态分布的条件下,样本均值 \(\bar{x}\) 和样本方差 \(s^2\) 是两个独立的统计量。这意味着,知道 \(\bar{x}\) 的值不会影响 \(s^2\) 的分布,反之亦然。这一性质在进行统计推断时非常有用。
  2. \(\bar{x} \sim N(\mu, \sigma^2 / n)\)

    • 样本均值 \(\bar{x}\) 本身也服从正态分布,其均值等于总体均值 \(\mu\),方差等于总体方差 \(\sigma^2\) 除以样本量 \(n\)。这一性质说明了样本均值作为总体均值的估计量的精确性,随着样本量的增加,样本均值的方差减小,估计更加精确。
  3. \(\frac{(n - 1)s^2}{\sigma^2} \sim \chi^2 (n - 1)\)

    • 样本方差 \(s^2\) 经过标准化后,即乘以 \(\frac{n - 1}{\sigma^2}\),服从自由度为 \(n - 1\) 的卡方分布。这一性质在进行方差分析、假设检验等统计过程中非常重要,因为它提供了样本方差与总体方差之间关系的数学描述。

描述了正态总体样本均值和样本方差的重要性质,包括它们的独立性、样本均值的分布以及样本方差的分布。这些性质在数理统计和实际应用中具有广泛的应用价值,特别是在进行假设检验、置信区间估计和方差分析等统计推断时。

证明

\((x_1, x_2, \cdots, x_n)\) 的联合密度函数为

\[p(x_1, x_2, \cdots, x_n) = (2\pi\sigma^2)^{-n/2} \exp\left\{-\frac{1}{2\sigma^2} \sum_{i = 1}^{n} (x_i - \mu)^2\right\} \\ = (2\pi\sigma^2)^{-n/2} \exp\left\{-\frac{1}{2\sigma^2} \left(\sum_{i = 1}^{n} x_i^2 - 2n\bar{x}\mu + n\mu^2\right)\right\} \]

\[ \]

\(X = (x_1, x_2, \cdots, x_n)^T\),取一个 \(n\) 维正交矩阵 \(A\),其第一行的每一个元素均为 \(1/\sqrt{n}\),如下:

\[A = \left( \begin{array}{ccccc} \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \cdots & \frac{1}{\sqrt{n}} \\ \frac{1}{\sqrt{2 \cdot 1}} & -\frac{1}{\sqrt{2 \cdot 1}} & 0 & \cdots & 0 \\ \frac{1}{\sqrt{3 \cdot 2}} & \frac{1}{\sqrt{3 \cdot 2}} & -\frac{2}{\sqrt{3 \cdot 2}} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \frac{1}{\sqrt{n(n - 1)}} & \frac{1}{\sqrt{n(n - 1)}} & \frac{1}{\sqrt{n(n - 1)}} & \cdots & -\frac{\sqrt{n - 1}}{\sqrt{n}} \end{array} \right) \]

\(Y = (y_1, y_2, \cdots, y_n)^T = AX\),则该线性变换的雅可比(Jacobi)行列式为1(因为 \(A\) 是正交矩阵,所以其行列式的绝对值为1,且在此变换中保持符号不变,即为1)。

注意到 \(\sum_{i = 1}^{n} y_i^2 = Y^TY = X^TA^TAX = \sum_{i = 1}^{n} x_i^2\),于是 \(y_1, y_2, \cdots, y_n\) 的联合密度函数为:

\(p(y_1, y_2, \cdots, y_n) = (2\pi\sigma^2)^{-\frac{n}{2}} \exp\left\{-\frac{1}{2\sigma^2} \left(\sum_{i = 1}^{n} y_i^2 - 2\sqrt{n}y_1\mu + n\mu^2\right)\right\}\)

\(= (2\pi\sigma^2)^{-\frac{n}{2}} \exp\left\{-\frac{1}{2\sigma^2} \left[\left(\sum_{i = 1}^{n} y_i^2\right) + (y_1 - \sqrt{n}\mu)^2 - n\mu^2 + n\mu^2\right]\right\}\)

\(= (2\pi\sigma^2)^{-\frac{n}{2}} \exp\left\{-\frac{1}{2\sigma^2} \left[\left(\sum_{i = 1}^{n} y_i^2\right) + (y_1 - \sqrt{n}\mu)^2\right]\right\}\)

由此,\(Y = (y_1, y_2, \cdots, y_n)^T\) 的各个分量相互独立,且都服从正态分布。其方差均为 \(\sigma^2\),而均值并不完全相同:\(y_2, \cdots, y_n\) 的均值为0,\(y_1\) 的均值为 \(\sqrt{n}\mu\)。这就证明了结论(2)。

由于 \((n - 1)s^2 = \sum_{i = 1}^{n} (x_i - \bar{x})^2 = \sum_{i = 1}^{n} x_i^2 - (\sqrt{n}\bar{x})^2 = \sum_{i = 1}^{n} y_i^2 - y_1^2 = \sum_{i = 2}^{n} y_i^2\),这证明了结论(1)。

由于 \(y_2, \cdots, y_n\) 独立同分布于 \(N(0, \sigma^2)\),于是:

\(\frac{(n - 1)s^2}{\sigma^2} = \sum_{i = 2}^{n} \left(\frac{y_i}{\sigma}\right)^2 \sim \chi^2(n - 1)\)

1.5 应用

卡方分布广泛应用于统计学中的假设检验,特别是在方差分析(ANOVA)和列联表检验中。它也用于信号处理、通信理论和量子力学等领域。

2. F分布

2.1 F分布定义

设随机变量\(X_1\sim\chi^2(m)\)\(X_2\sim\chi^2(n)\)\(X_1\)\(X_2\)独立,则称\(F = \frac{X_1/m}{X_2/n}\)的分布是自由度为\(m\)\(n\)\(F\)分布,记为\(F\sim F(m,n)\),其中\(m\)称为分子自由度,\(n\)称为分母自由度。

2.2 F分布密度函数

下面分两步来导出\(F\)分布的密度函数。

第一步,我们导出\(Z=\frac{X_1}{X_2}\)的密度函数,若记\(p_1(x)\)\(p_2(x)\)分别为\(\chi^2(m)\)\(\chi^2(n)\)的密度函数,根据独立随机变量商的分布的密度函数的公式,\(Z\)的密度函数为

\[p_Z(z)=\int_{0}^{\infty}x_2p_1(zx_2)p_2(x_2)dx_2 \]

\[p_Z(z) = \frac{z^{\frac{m}{2}-1}}{n^{\frac{m}{2}}} \frac{1}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} \int_{0}^{\infty} x_2^{\frac{m + n}{2}-1} e^{-\frac{x_2}{2}(1 + z)} \mathrm{d}x_2 \]

运用变换 \(u = \frac{x_2}{2}(1 + z)\),则 \(\mathrm{d}u = \frac{1}{2}(1 + z)\mathrm{d}x_2\),从而 \(\mathrm{d}x_2 = \frac{2}{1 + z}\mathrm{d}u\)
\(x_2 = 0\) 时,\(u = 0\);当 \(x_2 \to \infty\) 时,\(u \to \infty\)
因此,积分可以转换为:

\[\begin{aligned} p_Z(z) &= \frac{z^{\frac{m}{2}-1}}{n^{\frac{m}{2}}} \frac{1}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} \int_{0}^{\infty} \left[\frac{2u}{1 + z}\right]^{\frac{m + n}{2}-1} e^{-u} \frac{2}{1 + z} \mathrm{d}u \\ &= \frac{z^{\frac{m}{2}-1}}{n^{\frac{m}{2}}} \frac{1}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} \cdot 2^{\frac{m + n}{2}} (1 + z)^{-\frac{m + n}{2}} \int_{0}^{\infty} u^{\frac{m + n}{2}-1} e^{-u} \mathrm{d}u \\ &= \frac{z^{\frac{m}{2}-1}(1 + z)^{-\frac{m + n}{2}}}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} \cdot 2^{\frac{m + n}{2} - 1} \Gamma\left(\frac{m + n}{2}\right) \\ &= \frac{\Gamma\left(\frac{m + n}{2}\right)}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} z^{\frac{m}{2}-1}(1 + z)^{-\frac{m + n}{2}}, \quad z \geq 0 \end{aligned} \]

注意,在最后一步中,我们利用了伽马函数的定义 \(\Gamma(a) = \int_{0}^{\infty} t^{a-1} e^{-t} \mathrm{d}t\),将积分 \(\int_{0}^{\infty} u^{\frac{m + n}{2}-1} e^{-u} \mathrm{d}u\) 化简为 \(\Gamma\left(\frac{m + n}{2}\right)\)。同时,我们也将 \(2^{\frac{m + n}{2} - 1}\) 合并到了前面的系数中。

第二步,我们导出 \(F = \frac{n}{m}Z\) 的密度函数。设 \(F\) 的取值为 \(y\),对于 \(y \geq 0\),有:

\[\begin{aligned} p_F(y) &= p_Z\left(\frac{m}{n}y\right) \cdot \frac{m}{n} \\ &= \frac{\Gamma\left(\frac{m + n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)} \left(\frac{m}{n}y\right)^{\frac{m}{2}-1} \left(1 + \frac{m}{n}y\right)^{-\frac{m + n}{2}} \cdot \frac{m}{n} \\ &= \frac{\Gamma\left(\frac{m + n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)} \left(\frac{m}{n}\right)^{\frac{m}{2}} y^{\frac{m}{2}-1} \left(1 + \frac{m}{n}y\right)^{-\frac{m + n}{2}} \end{aligned} \]

这就是自由度为 \(m\)\(n\)\(F\) 分布的密度函数。该密度函数的图像是一个只取非负值的偏态分布

image-20241207011957641

附录B

附录B.1 卡方分布画图

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import chi2

# 设置自由度
dfs = [4, 6, 10]

# 生成 x 值的范围
x = np.linspace(0, 30, 1000)

# 计算卡方分布的概率密度函数
for df in dfs:
    pdf = chi2.pdf(x, df)
    plt.plot(x, pdf, label=f'Chi-square(df={df})')

# 绘制概率密度函数图像
plt.xlabel('x')
plt.ylabel('Probability Density')
plt.title('Chi-square Distribution')
plt.legend()
plt.grid(True)
plt.show()

附录B.2 F分布画图

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import f

# 设置自由度参数
d1 = 4
d2s = [4000, 10, 4, 1]

# 生成 x 值的范围
x = np.linspace(0, 5, 1000)

# 计算 F 分布的概率密度函数
for d2 in d2s:
    pdf = f.pdf(x, d1, d2)
    plt.plot(x, pdf, label=f'F({d1}, {d2})')

# 绘制概率密度函数图像
plt.xlabel('x')
plt.ylabel('Probability Density')
plt.title('F Distribution')
plt.legend()
plt.grid(True)
plt.show()
posted @ 2024-12-06 16:33  redufa  阅读(530)  评论(0)    收藏  举报