概率统计之统计部分抄ppt

统计基础

统计量

定义:样本不依赖于位置参数的函数

常用统计量:

  • 样本均值:\(\bar X = \sum_i X_i / n\)
  • 样本方差:\(S^2 = \sum_i (X_i - \bar X)^2 / (n-1)\),这是对 \(X_i\) 方差的无偏估计量。
  • \(k\) 阶矩:\(A_k\)
  • \(k\) 阶中心矩:\(B_k\)

重要分布

\(\chi^2\) 分布

\(n\) 个服从标准正态分布相互独立随机变量的平方和为 \(\chi^2_n\),则称 \(\chi^2_n\) 服从自由度为 \(n\)\(\chi^2\) 分布,记为 \(\chi^2_n \sim \chi^2(n)\)

自由度为 \(n\)\(\chi^2\) 分布的上 \(\alpha\) 分位数记为 \(\chi^2_a(n)\)

例题结论:

  • 正态分布独立样本条件下,\(\bar X\)\(S^2\) 相独立。证明过程大概如下:

  • \((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\)

    • 以上两个结论的证明(可以直接看最后一项):

    • 先取 \(Y_1\) 为均值(即 \(\bar X\)),再取 \(Y_2 \dots Y_n\) 以表示出 \(S^2\)。取 \(Y_2\),由于要求与 \(Y_1\) 不相关(我们不妨假设 \(Y_2\) 只与 \(X_1, X_2\) 有关),在保证单位向量的情况下系数唯一。接着取 \(Y_3\),其与 \(Y_1\) 不应当相关(这是与均值独立的要求),与 \(Y_2\) 也不应当相关(保证变量相互独立,以证明下一题),因此可以列出形如 \(A_{31}+A_{32}+A_{33} = 0,A_{31} = A_{32}, A_{31}^2+A_{32}^2+A_{33}^2=1\) 三个方程,这又唯一确定了这三个系数。以此类推得到系数矩阵 \(A\)

    • 为什么这种方式使得 \(Y_2^2 + \dots + Y_n^2\) 恰好表示出 \(S^2\)?不知道。

    • 看了下lds课件,其实根本没必要以这种方式构造式的给出系数矩阵 \(A\)。直接取系数矩阵 \(A\) 的第一行为 \(\frac{1}{\sqrt{n}}\) 来表示均值,其他任取但保证单位正交。那么有 \(\sum Y_i^2 = Y^TY = X^TA^TAX = X^TX = \sum X_i^2\)。再由 \(Y_1 = \bar X \sqrt{n}\) 可得 \(\sum \limits_{i=2}^nY_i^2 = \sum X_i^2 - n\bar X^2 = \sum(X_i - \bar X)^2\)。因为正交的构造,也可以立得两个结论。

  • \(\chi^2_2\sim Exp(1/2)\)

\(t\) 分布

\(X \sim N(0,1), Y \sim \chi^2(n)\)\(X, Y\) 相互独立,\(T = \dfrac{X}{\sqrt{\dfrac{Y}{n}}}\),则称 \(T\) 服从自由度为 \(n\)\(t\) 分布,记作 \(T \sim t(n)\)

统一量纲:分母应当开根号。

\(t\) 分布在自由度较大时近似为标准正态分布。

例题结论:

  • \(\dfrac{\bar X - \mu}{\sqrt{\dfrac{S^2}{n}}} \sim t(n-1)\)
    • 已经证明两个变量相互独立,再根据 \((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\) 凑一下就可以了。
    • 注意下面 \(S\) 除的是 \(n\),但凑出来的是 \(t(n-1)\)
  • \(T = \dfrac{(\bar X - \bar Y) - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\),其中 \(S_w^2 = \dfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}\)。则 \(T \sim t(n_1 + n_2 - 2)\)
    • \(\bar X - \bar Y\) 为正态分布,标准化。由于 \(\chi^2\) 分布的可加性,将 \(S_1^2, S_2^2\) 分别拿出来凑一个 \(\chi^2\) 分布。

F分布

\(X \sim \chi^2(n_1), Y\sim \chi^2(n_2)\)\(X, Y\) 独立。称 \(F = \dfrac{\frac{X}{n_1}}{\frac{Y}{n_2}}\) 服从自由度为 \((n_1, n_2)\)\(F\) 分布,记作 \(F \sim F(n_1, n_2)\)

\(F(1, n)\)\(t(n)\) 的平方。

例题结论:

  • \(F = \dfrac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)

参数估计

点估计

定义:用简单随机样本统计量估计参数,称为点估计量。样本确定取值,用点估计量估计出的值称为点估计值。

矩法(矩估计)

用前 \(k\) 阶矩或中心矩,估计 \(k\) 个参数。

方法:先用参数表示前 \(k\) 阶(中心)矩,再反解出参数,代入样本即可。

极大似然估计

Bayes 公式:\(P(\theta|A) = \dfrac{P(A|\theta)P(\theta)}{P(A)}\),现在样本 \(A\) 已知,如果假设 \(P(\theta)\) 是均匀分布的,\(\text{argmax}\ P(\theta|A) = \text{argmax}\ P(A|\theta)\),因此极大似然。为了方便,取 \(\log\) 是常用的方法。

估计量的标准

无偏性

无偏估计量、渐进无偏估计量

有效性

对于所有的 \(\theta\),方差都不大。且存在一个 \(\theta\) 方差小,则更有效。

均方误差原则

均方误差。

相合性

\(\hat \theta\) 收敛于 \(\theta\)

置信区间

定义:两个统计量夹住概率至少为 \(\alpha\) 的参数取值区间,称 \(\alpha\) 为置信度。双侧置信区间、单侧置信区间。

枢轴量

样本和待估参数的函数,但其分布只依赖于样本,不依赖于未知参数。

例如在独立同分布的总体中取样,根据中心极限定理,减均值除标准差后近似服从 \(N(0, 1)\) 分布,这与待估参数无关。

因此如果给定待估参数和样本,可以通过减均值除方差之后落入的点的概率来判断是否可信,即可信区间。

正态分布总体下区间估计

单个正态总体估计 X

已知 \(\sigma^2\),估计 \(\mu\)

\(\bar X\)\(\dfrac{\bar X - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)\)

未知 \(\sigma^2\),估计 \(\mu\)

还要用 \(\bar X\),但因为 \(\sigma\) 未知,用样本标准差 \(S\) 代替,这也对应着 \(t\) 分布在自由度大时近似标准正态分布。

\(\dfrac{\bar X - \mu}{S / \sqrt{n}} \sim t(n - 1)\)

未知 \(\mu\),估计 \(\sigma^2\)

\((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\)

两个正态总体估计 X,Y

已知 \(\sigma_1^2, \sigma_2^2\),估计 \(\mu_1 - \mu_2\)

\(\bar X - \bar Y\) 看成一个正态分布就行了。

\(\sigma_1 = \sigma_2\) 但未知,估计 \(\mu_1 - \mu_2\)

\(T = \dfrac{(\bar X - \bar Y) - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)\)

\(\sigma_1 \neq \sigma_2\) 且未知

如果充分大,用中心极限定理把 \(\bar X - \bar Y\) 近似成标准正态分布做。

对于有限小样本,\(\bar X - \bar Y\) 近似服从 \(t(\min\{n_1 - 1, n_2 - 1\})\)

\(\mu_1, \mu_2\) 未知,估计 \(\sigma_1^2 / \sigma_2^2\)

\(\dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} = \dfrac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)

假设检验

原假设:要否定的假设。\(H_0\)

备择假设:与原假设对立的假设。\(H_1\)

拒绝域:如果样本的某个统计量落入拒绝域,我们就拒绝原假设,接受备择假设。

\(I\) 类错误:拒绝真实原假设 \(P(拒绝H_0\ |\ H_0真)\)

\(II\) 类错误:接受错误原假设 \(P(接受 H_0\ |\ H_0 假)\)

希望同时减少两类错误,但同样样本下往往不可能。

Neyman-Pearson 原则方法

\(I\) 类错误拒绝了真实的原假设,这与我们的要求(证否 \(H_0\))不符。

因此首先控制第 \(I\) 类错误发生概率不超过 \(\alpha\),再寻找检验使得第 \(II\) 类错误发生概率尽量小。

此处的 \(\alpha\) 被称为显著水平。

\(p\) 值方法

\(p\) 值:当原假设成立时,统计量比观察到的结果更极端的概率。

对于显著水平 \(\alpha\),若 \(p \leq \alpha\),则拒绝原假设,称检验结果在水平 \(\alpha\) 下是统计显著的。

否则接受原假设,称检验结果在水平 \(\alpha\) 下是统计不显著的。

假设检验实例

单个正态总体

\(Z\) 检验:\(\sigma^2\) 已知,检验均值
\(t\) 检验:\(\sigma^2\) 未知,检验均值
\(\chi^2\) 检验:\(\mu\) 未知,检验 \(\sigma^2\)

两个正态总体

已知 \(\sigma_1, \sigma_2\),检验 \(\mu_1 - \mu_2\)
\(\sigma_1 = \sigma_2\) 但未知,检验 \(\mu_1 - \mu_2\)
\(\sigma_1 \neq \sigma_2\) 且未知,检验 \(\mu_1 - \mu_2\)
\(F\) 检验:\(\mu_1, \mu_2\) 未知,检验 \(\dfrac{\sigma_1^2}{\sigma_2^2}\)

回归分析

一元线性回归

假设模型为:

\(Y_i = \alpha + \beta x_i + \varepsilon_i\)

\(\varepsilon \sim N(0, \sigma^2)\)

其中 \(\alpha, \beta, \sigma^2\) 未知

据此知 \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\).

由样本给出 \(\alpha, \beta\) 的点估计 \(\hat \alpha, \hat \beta\),称 \(\hat y = \hat \alpha + \hat \beta x\)

直接定义偏差函数为 \(Q(\alpha, \beta) = \sum (y_i - \hat y_i)^2\)

通过最小化 \(Q(\hat \alpha, \hat \beta)\) 来得到 \(\hat \alpha\)\(\hat \beta\)

不写了。

posted @ 2023-06-20 04:07  skyh  阅读(112)  评论(0编辑  收藏  举报