数据分析的统计基础4

大数定律、中心极限定理与几大导出分布

大数定律

\(X_1,X_2,...,X_i...\)是独立随机变量序列,\(E(X_i)=\mu\)\(Var(X_i)=\sigma^2\)。令\(\bar X_n = n^{-1}\sum \limits_{i=1}^{n}X_i\)。那么对于任意的\(\varepsilon >0\),当\(n \to \infty\)时,有

\[P(|\bar X_n - \mu | > \varepsilon) \to 0 \]

证明:首先计算\(E(\bar X_n)\)\(Var(\bar X_n)\)

根据期望的线性性质,\(E(\bar X_n) = \frac{1}{n}\sum \limits_{i=1}^{n}E(X_i) = \mu\)

又因为\(X_i\)独立,\(Var(\bar X_n) = \frac{1}{n^2}\sum \limits_{i=1}^{n}Var(X_i) = \frac{\sigma^2}{n}\)

然后利用切比雪夫不等式即可:

\[P(|\bar X_n - \mu| > \varepsilon) \leq \frac{Var(\bar X_n)}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2} \to 0 ,当n \to \infty 时 \]

如果随机变量序列\(Z_n\)满足对任意\(\varepsilon > 0\),当\(n \to \infty\)时,\(P(|Z_n - \alpha| > \varepsilon) \to 0\),其中\(\alpha\)是一个标量,那么称\(Z_n\)依概率收敛。

大数定律告诉我们,如果从同一总体中(无论总体服从何种分布),进行\(n\)重独立随机试验,随着\(n \to \infty\)\(n\)重独立随机试验组成的样本,其样本均值收敛于总体均值。

中心极限定理

如果\(X_1,X_2,...\)是均值为\(\mu\)和方差为\(\sigma^2\)的独立随机变量序列(无论分布如何),且\(S_n = \sum \limits_{i=1}^{n}X_i\)。由大数定理可知,\(S_n/n\)依概率收敛至\(\mu\)。这由如下事实得到:

\[Var(\frac{S_n}{n}) = \frac{1}{n^2}\sum\limits_{i=1}^{n}(S_n) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n} \]

中心极限定理不关心比率\(S_n/n\)是否收敛到\(\mu\),而是关心它是如何围绕\(\mu\)波动的。为了分析这种波动,对于\(S_n\),均值为\(n\mu\),方差为\(n\sigma^2\)。我们标准化(减去均值\(n\mu\),除以标准差\(\sqrt{n\sigma^2}\)):

\[Z_n = \frac{S_n - n\mu}{\sigma \sqrt n} \]

可以证明,\(Z_n\)收敛于均值为\(0\),方差为\(1\)的的标准正态分布。此时有结论:

\(S_n\)收敛于均值为\(n\mu\),方差为\(n\sigma^2\)的正态分布。

\(S_n/n\)收敛于均值为\(\mu\),方差为\(\sigma^2/n\)的正态分布。(证明从略)

正态分布的导出分布

\(\chi^2\)分布

定义:如果\(Z\)是标准正态随机变量,\(U=Z^2\)的分布称为自由度为\(1\)的卡方分布。记作:\(\chi_1^2\)

  • 如果\(X \sim N(\mu,\sigma^2)\),那么标准化后的\((X-\mu)/\sigma \sim N(0,1)\),因此\([(X-\mu)/\sigma]^2 \sim \chi_1^2\)
  • 如果\(U_1,U_2,...,U_n\)相互独立的自由度为\(1\)的卡方随机变量,那么\(V = U_1 + U_2 + ... + U_n\)称为自由度为\(n\)的卡方分布,记作\(\chi_n^2\)
  • 相同\(\lambda\)值的独立伽马随机变量之和服从伽马分布,因此自由度为\(n\)的卡方分布是\(\alpha=n/2\)\(\lambda = 1/2\)的伽马分布。
  • \(E(V) = n\)\(Var(V)=2n\)
  • 如果\(V\)\(U\)独立,\(U\sim\chi_n^2\)\(V\sim\chi_m^2\),那么\(U+V\sim\chi_{m+n}^2\)

\(t\)分布

定义:如果\(Z\sim N(0,1)\)\(U\sim\chi_n^2\),且\(Z\)\(U\)独立,那么\(Z/\sqrt{U/n}\)是自由度为\(n\)\(t\)分布。

  • \(t\)分布的密度函数满足\(f(-t)=f(t)\),所以\(t\)分布关于\(x=0\)对称。
  • 当自由度趋于无穷时,\(t​\)分布趋向于标准正态分布;事实上,当自由度超过20或30时,两个分布就非常接近。
  • 随着自由度增加,\(t​\)分布随着自由度的增加越来越薄。

\(F\)分布

\(U\)\(V\)是自由度分别为\(m\)\(n\)的独立卡方随机变量,\(W = \frac{U/m}{V/n}\)的分布称为自由度为\(m\)\(n\)\(F\)分布,记作\(F_{m,n}\)

  • 可以证明,在\(n>2\)时,\(E(W)\)存在且等于\(n/(n-2)\)
  • \(t\)分布和\(F\)分布的定义可知,随机变量\(t_n\)的平方服从\(F_{1,n}\)分布。
  • 对于F分布上的\(\alpha\)分位点,有:\(F_{1-\alpha}(n_1,n_2)=1/F_\alpha(n_2,n_1)\)

样本均值和样本方差

\(X_1,...,X_n\)是独立的\(N(\mu,\sigma^2)\)随机变量,我们称之为来自正态总体的样本。定义样本均值和样本方差分别为:

\[\bar X = \frac{1}{n}\sum \limits_{i=1}^{n}X_i 和 S^2 = \frac{1}{n-1}\sum\limits_{i=1}^{n}(X-\bar X)^2 \]

首先,\(\bar X\)是独立正态随机变量的线性组合,它是正态的,且\(E(\bar X) = \mu\)\(Var(\bar X) = \sigma^2/n\)

  • \(\bar X\)\(S^2\)独立

  • \((n-1)S^2/\sigma^2\)服从自由度为\(n-1\)的卡方分布

    推导:

    \[\frac{1}{\sigma^2}\sum \limits_{i=1}^{n}(X_i - \mu)^2 = \sum \limits_{i=1}^{n}\left( \frac{X_i - \mu}{\sigma} \right)^2 \sim \chi_n^2 \]

    同时,

    \[\frac{1}{\sigma^2}\sum \limits_{i=1}^{n}\left(X_i - \mu \right)^2 = \frac{1}{\sigma^2}\sum \limits_{i=1}^{n}\left[\left(X_i - \bar X \right) + \left(\bar X - \mu \right)\right]^2 \]

    展开平方项,利用\(\sum \limits_{i=1}^{n}(X_i-\bar X) = 0​\),我们得到:

    \[\frac{1}{\sigma^2}\sum \limits_{i=1}^{n}\left(X_i - \mu \right)^2 = \frac{1}{\sigma^2}\sum\limits_{i=1}^{n} \left(X_i - \bar X \right) ^2+ \left( \frac{\bar X - \mu}{\sigma / \sqrt{n}}\right) ^ 2 \]

    这是\(W = U + V\)的关系形式,\(U\)\(V\)独立,\(U\)\(V\)都服从卡方分布。

  • \(\frac{\bar X - \mu}{S/\sqrt n } \sim t_{n-1}\)

    说明:

\[ \frac{\bar X - \mu}{S/\sqrt n } = \frac{\left( \frac{\bar X - \mu}{\sigma / \sqrt n}\right)}{\sqrt{S^2/\sigma^2}} = \frac{\left( \frac{\bar X - \mu}{\sigma / \sqrt n}\right)}{\sqrt{\frac{(n-1)S^2/\sigma^2}{n-1}}} \]

上式中分子服从\(N(0,1)\)分布,\((n-1)S^2/\sigma^2\)服从\(\chi_{n-1}^2\)分布,因此该式服从\(t_{n-1}\)分布

posted @ 2019-08-21 17:15  Evian_Jeff  阅读(482)  评论(0)    收藏  举报