概率统计之统计部分抄ppt

统计基础

统计量

定义：样本不依赖于位置参数的函数

常用统计量：

样本均值：\(\bar X = \sum_i X_i / n\)
样本方差：\(S^2 = \sum_i (X_i - \bar X)^2 / (n-1)\)，这是对 \(X_i\) 方差的无偏估计量。
\(k\) 阶矩：\(A_k\)
\(k\) 阶中心矩：\(B_k\)

重要分布

\(\chi^2\) 分布

设 \(n\) 个服从标准正态分布相互独立随机变量的平方和为 \(\chi^2_n\)，则称 \(\chi^2_n\) 服从自由度为 \(n\) 的 \(\chi^2\) 分布，记为 \(\chi^2_n \sim \chi^2(n)\)。

自由度为 \(n\) 的 \(\chi^2\) 分布的上 \(\alpha\) 分位数记为 \(\chi^2_a(n)\)。

例题结论：

正态分布独立样本条件下，\(\bar X\) 与 \(S^2\) 相独立。证明过程大概如下：
\((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\)
- 以上两个结论的证明（可以直接看最后一项）：
- 先取 \(Y_1\) 为均值（即 \(\bar X\)），再取 \(Y_2 \dots Y_n\) 以表示出 \(S^2\)。取 \(Y_2\)，由于要求与 \(Y_1\) 不相关（我们不妨假设 \(Y_2\) 只与 \(X_1, X_2\) 有关），在保证单位向量的情况下系数唯一。接着取 \(Y_3\)，其与 \(Y_1\) 不应当相关（这是与均值独立的要求），与 \(Y_2\) 也不应当相关（保证变量相互独立，以证明下一题），因此可以列出形如 \(A_{31}+A_{32}+A_{33} = 0,A_{31} = A_{32}, A_{31}^2+A_{32}^2+A_{33}^2=1\) 三个方程，这又唯一确定了这三个系数。以此类推得到系数矩阵 \(A\)。
- 为什么这种方式使得 \(Y_2^2 + \dots + Y_n^2\) 恰好表示出 \(S^2\)？不知道。
- 看了下lds课件，其实根本没必要以这种方式构造式的给出系数矩阵 \(A\)。直接取系数矩阵 \(A\) 的第一行为 \(\frac{1}{\sqrt{n}}\) 来表示均值，其他任取但保证单位正交。那么有 \(\sum Y_i^2 = Y^TY = X^TA^TAX = X^TX = \sum X_i^2\)。再由 \(Y_1 = \bar X \sqrt{n}\) 可得 \(\sum \limits_{i=2}^nY_i^2 = \sum X_i^2 - n\bar X^2 = \sum(X_i - \bar X)^2\)。因为正交的构造，也可以立得两个结论。
\(\chi^2_2\sim Exp(1/2)\)

\(t\) 分布

设 \(X \sim N(0,1), Y \sim \chi^2(n)\) 且 \(X, Y\) 相互独立，\(T = \dfrac{X}{\sqrt{\dfrac{Y}{n}}}\)，则称 \(T\) 服从自由度为 \(n\) 的 \(t\) 分布，记作 \(T \sim t(n)\)。

统一量纲：分母应当开根号。

\(t\) 分布在自由度较大时近似为标准正态分布。

例题结论：

\(\dfrac{\bar X - \mu}{\sqrt{\dfrac{S^2}{n}}} \sim t(n-1)\)
- 已经证明两个变量相互独立，再根据 \((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\) 凑一下就可以了。
- 注意下面 \(S\) 除的是 \(n\)，但凑出来的是 \(t(n-1)\)。
设 \(T = \dfrac{(\bar X - \bar Y) - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\)，其中 \(S_w^2 = \dfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}\)。则 \(T \sim t(n_1 + n_2 - 2)\)。
- 取 \(\bar X - \bar Y\) 为正态分布，标准化。由于 \(\chi^2\) 分布的可加性，将 \(S_1^2, S_2^2\) 分别拿出来凑一个 \(\chi^2\) 分布。

F分布

设 \(X \sim \chi^2(n_1), Y\sim \chi^2(n_2)\) 且 \(X, Y\) 独立。称 \(F = \dfrac{\frac{X}{n_1}}{\frac{Y}{n_2}}\) 服从自由度为 \((n_1, n_2)\) 的 \(F\) 分布，记作 \(F \sim F(n_1, n_2)\)。

\(F(1, n)\) 是 \(t(n)\) 的平方。

例题结论：

\(F = \dfrac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)

参数估计

点估计

定义：用简单随机样本统计量估计参数，称为点估计量。样本确定取值，用点估计量估计出的值称为点估计值。

矩法（矩估计）

用前 \(k\) 阶矩或中心矩，估计 \(k\) 个参数。

方法：先用参数表示前 \(k\) 阶（中心）矩，再反解出参数，代入样本即可。

极大似然估计

Bayes 公式：\(P(\theta|A) = \dfrac{P(A|\theta)P(\theta)}{P(A)}\)，现在样本 \(A\) 已知，如果假设 \(P(\theta)\) 是均匀分布的，\(\text{argmax}\ P(\theta|A) = \text{argmax}\ P(A|\theta)\)，因此极大似然。为了方便，取 \(\log\) 是常用的方法。

估计量的标准

无偏性

无偏估计量、渐进无偏估计量

有效性

对于所有的 \(\theta\)，方差都不大。且存在一个 \(\theta\) 方差小，则更有效。

均方误差原则

均方误差。

相合性

\(\hat \theta\) 收敛于 \(\theta\)。

置信区间

定义：两个统计量夹住概率至少为 \(\alpha\) 的参数取值区间，称 \(\alpha\) 为置信度。双侧置信区间、单侧置信区间。

枢轴量

样本和待估参数的函数，但其分布只依赖于样本，不依赖于未知参数。

例如在独立同分布的总体中取样，根据中心极限定理，减均值除标准差后近似服从 \(N(0, 1)\) 分布，这与待估参数无关。

因此如果给定待估参数和样本，可以通过减均值除方差之后落入的点的概率来判断是否可信，即可信区间。

正态分布总体下区间估计

单个正态总体估计 X

已知 \(\sigma^2\)，估计 \(\mu\)

用 \(\bar X\)，\(\dfrac{\bar X - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)\)。

未知 \(\sigma^2\)，估计 \(\mu\)

还要用 \(\bar X\)，但因为 \(\sigma\) 未知，用样本标准差 \(S\) 代替，这也对应着 \(t\) 分布在自由度大时近似标准正态分布。

\(\dfrac{\bar X - \mu}{S / \sqrt{n}} \sim t(n - 1)\)。

未知 \(\mu\)，估计 \(\sigma^2\)

\((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\)

两个正态总体估计 X,Y

已知 \(\sigma_1^2, \sigma_2^2\)，估计 \(\mu_1 - \mu_2\)

把 \(\bar X - \bar Y\) 看成一个正态分布就行了。

\(\sigma_1 = \sigma_2\) 但未知，估计 \(\mu_1 - \mu_2\)

\(T = \dfrac{(\bar X - \bar Y) - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)\)

\(\sigma_1 \neq \sigma_2\) 且未知

如果充分大，用中心极限定理把 \(\bar X - \bar Y\) 近似成标准正态分布做。

对于有限小样本，\(\bar X - \bar Y\) 近似服从 \(t(\min\{n_1 - 1, n_2 - 1\})\)。

\(\mu_1, \mu_2\) 未知，估计 \(\sigma_1^2 / \sigma_2^2\)

\(\dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} = \dfrac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)

假设检验

原假设：要否定的假设。\(H_0\)

备择假设：与原假设对立的假设。\(H_1\)

拒绝域：如果样本的某个统计量落入拒绝域，我们就拒绝原假设，接受备择假设。

第 \(I\) 类错误：拒绝真实原假设 \(P(拒绝H_0\ |\ H_0真)\)

第 \(II\) 类错误：接受错误原假设 \(P(接受 H_0\ |\ H_0 假)\)

希望同时减少两类错误，但同样样本下往往不可能。

Neyman-Pearson 原则方法

第 \(I\) 类错误拒绝了真实的原假设，这与我们的要求（证否 \(H_0\)）不符。

因此首先控制第 \(I\) 类错误发生概率不超过 \(\alpha\)，再寻找检验使得第 \(II\) 类错误发生概率尽量小。

此处的 \(\alpha\) 被称为显著水平。

\(p\) 值方法

\(p\) 值：当原假设成立时，统计量比观察到的结果更极端的概率。

对于显著水平 \(\alpha\)，若 \(p \leq \alpha\)，则拒绝原假设，称检验结果在水平 \(\alpha\) 下是统计显著的。

否则接受原假设，称检验结果在水平 \(\alpha\) 下是统计不显著的。

假设检验实例

单个正态总体

\(Z\) 检验：\(\sigma^2\) 已知，检验均值

\(t\) 检验：\(\sigma^2\) 未知，检验均值

\(\chi^2\) 检验：\(\mu\) 未知，检验 \(\sigma^2\)

两个正态总体

已知 \(\sigma_1, \sigma_2\)，检验 \(\mu_1 - \mu_2\)

\(\sigma_1 = \sigma_2\) 但未知，检验 \(\mu_1 - \mu_2\)

\(\sigma_1 \neq \sigma_2\) 且未知，检验 \(\mu_1 - \mu_2\)

\(F\) 检验：\(\mu_1, \mu_2\) 未知，检验 \(\dfrac{\sigma_1^2}{\sigma_2^2}\)

回归分析

一元线性回归

假设模型为：

\(Y_i = \alpha + \beta x_i + \varepsilon_i\)

\(\varepsilon \sim N(0, \sigma^2)\)

其中 \(\alpha, \beta, \sigma^2\) 未知

据此知 \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\).

由样本给出 \(\alpha, \beta\) 的点估计 \(\hat \alpha, \hat \beta\)，称 \(\hat y = \hat \alpha + \hat \beta x\)。

直接定义偏差函数为 \(Q(\alpha, \beta) = \sum (y_i - \hat y_i)^2\)

通过最小化 \(Q(\hat \alpha, \hat \beta)\) 来得到 \(\hat \alpha\) 和 \(\hat \beta\)。

不写了。

posted @ 2023-06-20 04:07 skyh 阅读(223) 评论(0) 收藏举报

刷新页面返回顶部

skyh

概率统计之统计部分抄ppt

统计基础

统计量

重要分布

\(\chi^2\) 分布

\(t\) 分布

F分布

参数估计

点估计

矩法（矩估计）

极大似然估计

估计量的标准

无偏性

有效性

均方误差原则

相合性

置信区间

枢轴量

正态分布总体下区间估计

单个正态总体估计 X

已知 \(\sigma^2\)，估计 \(\mu\)

未知 \(\sigma^2\)，估计 \(\mu\)

未知 \(\mu\)，估计 \(\sigma^2\)

两个正态总体估计 X,Y

已知 \(\sigma_1^2, \sigma_2^2\)，估计 \(\mu_1 - \mu_2\)

\(\sigma_1 = \sigma_2\) 但未知，估计 \(\mu_1 - \mu_2\)

\(\sigma_1 \neq \sigma_2\) 且未知

\(\mu_1, \mu_2\) 未知，估计 \(\sigma_1^2 / \sigma_2^2\)

假设检验

Neyman-Pearson 原则方法

\(p\) 值方法

假设检验实例

单个正态总体

\(Z\) 检验：\(\sigma^2\) 已知，检验均值

\(t\) 检验：\(\sigma^2\) 未知，检验均值

\(\chi^2\) 检验：\(\mu\) 未知，检验 \(\sigma^2\)

两个正态总体

已知 \(\sigma_1, \sigma_2\)，检验 \(\mu_1 - \mu_2\)

\(\sigma_1 = \sigma_2\) 但未知，检验 \(\mu_1 - \mu_2\)

\(\sigma_1 \neq \sigma_2\) 且未知，检验 \(\mu_1 - \mu_2\)

\(F\) 检验：\(\mu_1, \mu_2\) 未知，检验 \(\dfrac{\sigma_1^2}{\sigma_2^2}\)

回归分析

一元线性回归

公告