数据分析的统计基础1
概率
样本空间
- 样本空间:所有可能出现的试验结果全体,记为$\Omega \(,其元素记为\)\omega$
- 事件:\(\Omega\)的特定子集,一次试验可能出现的结果
- 事件的并交补:
- 并:\(A \cup B\),事件A和B至少发生一个
- 交:\(A \cap B\),事件A和B同时发生
- 补:\(A ^ C\),指A不发生的事件 $A \cap A^C = \varnothing $
- 运算律:
- 交换律
- \(A \cup B = B \cup A\)
- \(A \cap B = B \cap A\)
- 结合律
- \((A \cup B) \cup C = A \cup (B \cup C)\)
- \((A \cap B) \cap C = A \cap (B \cap C)\)
- 分配律(文氏图)
- \((A \cup B) \cap C = (A \cap C) \cup (B \cap C)\)
- \((A \cap B ) \cup C = (A \cup C) \cap (B \cup C)\)
- 德摩根律
- \(\overline{A \cup B} = \overline A \cap \overline B\)
- \(\overline{A \cap B} = \overline A \cup \overline B\)
- 交换律
概率测度
样本空间上\(\Omega\)的概率测度(probability measure)是定义在\(\Omega\)子集上的实函数,且满足以下公理:
- 公理1:\(P(\Omega) = 1\)
- 公理2:如果$A \subset B \(,那么\)P(A) \geq 0$
- 公理3:如果\(A_1\)和\(A_2\)是不相交的,那么
更一般地,如果\(A_1,A_2,...,A_n,...\)是相互不交的,那么
性质:
-
\(P(\overline A) = 1 - P(A)\) 证明:公理1 + 公理3
-
\(P(\varnothing ) = 0\)
-
如果\(A \subset B\),那么\(P(A) \leq P(B)\)
证明:\(B = A \cup (B \cap \overline A) \Rightarrow P(B) = P(A) + P(B \cap \overline A) \Rightarrow P(A) = P(B) - P(B \cap \overline A) \leq P(B)\)
-
加法定律:\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\) ,证明:文氏图分解
概率计算
设\(\Omega = \{\omega_1,\omega_2,...,\omega_N\}\),并且\(P(\omega_i) = p_i\),为了计算事件\(A\)发生的概率,我们只需将\(A\)包含的基本事件的概率相加即可。如果\(\Omega\)有\(N\)个元素,那么每一个元素发生的概率都是\(1/N\).如果事件\(A\)通过\(n\)个互斥途径的任一种方式发生,那么\(P(A) = n/N\),或者
乘法原理:如果一个试验有\(m\)个结果,另一个试验有\(n\)个结果,那么这两个试验共有\(mn\)个可能的结果
扩展的乘法原理:如果有\(p\)个试验,第一个有\(n_1\)种可能的试验结果,第二次有\(n_2\)种,...,第\(p\)次有\(n_p\)种可能的试验结果,那么\(p\)次试验共有\(n_1 \times n_2 \times ... n_p\)中可能的试验结果 (证明用数学归纳法)
排列与组合:
-
排列:是任务的有序安置,有多少可能的列示方式依赖于列表中的元素能否重复,若不允许重复,我们使用的是无重复抽样;若允许重复,我们使用的是重复抽样。
- 根据乘法原理,从\(n\)个元素的集合中抽取样本容量为\(r\)的样本,重复抽样有\(n^r\)个不同的有序样本,无重复抽样有\(n(n-1)(n-2)...(n-r+1)\)个不同的有序样本。
- 推论:无重复抽样条件下,\(n\)个元素的有序排列个数是\(n(n-1)(n-2)...1 = n!\)
-
组合:由乘法原理,有序样本的个数等于无序样本的个数乘以每一样本的有序排列数,因为有序样本个数是\(n(n-1)...(n-r+1)\),容量\(r\)的样本有\(r!\)个排列数,所以无序样本的个数是
-
从\(n\)个对象中无重复地抽取\(r\)个无序样本的个数是\(\binom{n}{r}\)
-
\(\binom{n}{k}\)出现在下面的展开式中,成为二项系数(binomial coefficient)
\[(a+b)^n = \sum_{k=0}^{n}\binom{n}{k}a^kb^{n-k} \]
特别地,
-
\(n\)个对象分成\(r\)个类,第\(i\)个类含有\(n_i\)个对象,\(i=\{1,2,...r\},\sum_{i=1}^{r}n_i=n\),那么这种分类方式共有:
\[\binom{n}{n_1n_2...n_r} = \frac{n!}{n_1!n_2!...n_r!} \]证明:上式中,第一类中的对象有\(\binom{n}{n_1}\)种选择方式,第二类中的对象在剩余对象中有\(\binom{n-n_1}{n_2}\)种选择方式,依次类推,共有分类方式:
\[\binom{n}{n_1}\binom{n-n_1}{n_2}...\binom{n-n_1-n_2-...-n_{r-1}}{n_r} \]\[= \frac{n!}{(n-n_1)!n_1!} \frac{(n-n_1)!}{(n-n_1-n_2)!n_2!}...\frac{(n-n_1-n_2-...n_r-1)!}{(n-n_1-n_2-...-n_{r-1}-n_r)!n_r!} \]\[=\frac{n!}{n_1!n_2!...n_r!} \]\(\binom{n}{n_1n_2...n_r}\)称为多项系数(multinomial coefficient),出现在下面的展开式中:
\[(x_1 + x_2 + ... + x_r) ^ n = \sum \binom{n}{n_1n_2...n_r}x_1^{n_1}x_2^{n_2}...x_r^{n_r} \]
其中,求和下标是满足条件\(n_1 + n_2 + ... + n_r = n\)的所有非负整数\(n_1,n_2,...,n_r\)
条件概率
令\(A\)和\(B\)表示两事件,且\(P(B) \neq 0\)。给定事件\(B\)发生的条件下事件\(A\)发生的条件概率定义为:
乘法定律:令\(A\)和\(B\)表示两事件,且\(P(B) \neq 0\)。那么\(P(A \cap B) = P(A | B)P(B)\)
全概率定律:令\(B_1,B_2,...,B_n\)满足\(\bigcup \limits_{i=1}^{n}=\Omega,B_i \cap B_j = \varnothing,i \neq j\),且对所有的\(i\),\(P(B_i)>0\),那么对于任意的事件\(A\),有:(由因\(B_i\)及果)
贝叶斯公式:令\(A\)和\(B_1,B_2,...,B_n\)是事件,其中\(B_i\)不相交,$ \bigcup \limits_{i=1}^{n}B_i = \Omega\(,且对所有的\)i,P(B_i) > 0 \(。那么(由果\)A$及因)
独立性
直觉上,我们说两个事件\(A\)和\(B\)独立是指:已知一个时间发生不能为我们提供另一个事件发生与否的信息,即\(P(A|B) =P(A)\)和\(P(B|A) = P(B)\),现在如果
那么有\(P(A \cap B) = P(A) P(B)\),此时我们称事件\(A\)和事件\(B\)是独立的。
当我们考虑两个以上的事件时,情况变得更加复杂。此时两两独立不能保证相互独立,为此,我们定义事件集\(A_1,A_2,...,A_n\)是相互独立(mutually independent)的,如果任意的子集\(A_{i_1},A_{i_2},...A_{i_m}\)满足:
统计学派
频率方法(frequentist approach) 和 贝叶斯方法(Bayesian approach)

浙公网安备 33010602011771号