数据分析的统计基础1

概率

样本空间

  • 样本空间:所有可能出现的试验结果全体,记为$\Omega \(,其元素记为\)\omega$
  • 事件:\(\Omega\)的特定子集,一次试验可能出现的结果
  • 事件的并交补:
    • 并:\(A \cup B\),事件A和B至少发生一个
    • 交:\(A \cap B\),事件A和B同时发生
    • 补:\(A ^ C\),指A不发生的事件 $A \cap A^C = \varnothing $
  • 运算律:
    • 交换律
      • \(A \cup B = B \cup A\)
      • \(A \cap B = B \cap A\)
    • 结合律
      • \((A \cup B) \cup C = A \cup (B \cup C)\)
      • \((A \cap B) \cap C = A \cap (B \cap C)\)
    • 分配律(文氏图)
      • \((A \cup B) \cap C = (A \cap C) \cup (B \cap C)\)
      • \((A \cap B ) \cup C = (A \cup C) \cap (B \cup C)\)
    • 德摩根律
      • \(\overline{A \cup B} = \overline A \cap \overline B\)
      • \(\overline{A \cap B} = \overline A \cup \overline B\)

概率测度

样本空间上\(\Omega\)的概率测度(probability measure)是定义在\(\Omega\)子集上的实函数,且满足以下公理:

  • 公理1:\(P(\Omega) = 1\)
  • 公理2:如果$A \subset B \(,那么\)P(A) \geq 0$
  • 公理3:如果\(A_1\)\(A_2\)是不相交的,那么

\[P(A_1 \cup A_2) = P(A_1) + P(A_2) \]

更一般地,如果\(A_1,A_2,...,A_n,...\)是相互不交的,那么

\[P \left( \bigcup \limits_{i=1}^{\infty}A_{i}\right) = \sum \limits_{i=1}^{\infty}P \left( A_{i}\right) \]

性质:

  1. \(P(\overline A) = 1 - P(A)\) 证明:公理1 + 公理3

  2. \(P(\varnothing ) = 0\)

  3. 如果\(A \subset B\),那么\(P(A) \leq P(B)\)

    证明:\(B = A \cup (B \cap \overline A) \Rightarrow P(B) = P(A) + P(B \cap \overline A) \Rightarrow P(A) = P(B) - P(B \cap \overline A) \leq P(B)\)

  4. 加法定律:\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\) ,证明:文氏图分解

概率计算

\(\Omega = \{\omega_1,\omega_2,...,\omega_N\}\),并且\(P(\omega_i) = p_i\),为了计算事件\(A\)发生的概率,我们只需将\(A\)包含的基本事件的概率相加即可。如果\(\Omega\)\(N\)个元素,那么每一个元素发生的概率都是\(1/N\).如果事件\(A\)通过\(n\)个互斥途径的任一种方式发生,那么\(P(A) = n/N\),或者

\[P(A) = \frac{导致A发生的事件的个数}{所有试验结果个数} \]

乘法原理:如果一个试验有\(m\)个结果,另一个试验有\(n\)个结果,那么这两个试验共有\(mn\)个可能的结果

扩展的乘法原理:如果有\(p\)个试验,第一个有\(n_1\)种可能的试验结果,第二次有\(n_2\)种,...,第\(p\)次有\(n_p\)种可能的试验结果,那么\(p\)次试验共有\(n_1 \times n_2 \times ... n_p\)中可能的试验结果 (证明用数学归纳法)

排列与组合

  • 排列:是任务的有序安置,有多少可能的列示方式依赖于列表中的元素能否重复,若不允许重复,我们使用的是无重复抽样;若允许重复,我们使用的是重复抽样

    • 根据乘法原理,从\(n\)个元素的集合中抽取样本容量为\(r\)的样本,重复抽样有\(n^r\)个不同的有序样本,无重复抽样有\(n(n-1)(n-2)...(n-r+1)\)个不同的有序样本。
    • 推论:无重复抽样条件下,\(n\)个元素的有序排列个数是\(n(n-1)(n-2)...1 = n!\)
  • 组合:由乘法原理,有序样本的个数等于无序样本的个数乘以每一样本的有序排列数,因为有序样本个数是\(n(n-1)...(n-r+1)\),容量\(r\)的样本有\(r!\)个排列数,所以无序样本的个数是

\[ \binom{n}{r}=\frac{n(n-1)...(n-r+1)}{r!}=\frac{n!}{(n-r)!r!} \]

  • \(n\)个对象中无重复地抽取\(r\)个无序样本的个数是\(\binom{n}{r}\)

  • \(\binom{n}{k}\)出现在下面的展开式中,成为二项系数(binomial coefficient)

    \[(a+b)^n = \sum_{k=0}^{n}\binom{n}{k}a^kb^{n-k} \]

特别地,

\[2^n = \sum_{k=0}^{n}\binom{n}{r} \]

  • \(n\)个对象分成\(r\)个类,第\(i\)个类含有\(n_i\)个对象,\(i=\{1,2,...r\},\sum_{i=1}^{r}n_i=n\),那么这种分类方式共有:

    \[\binom{n}{n_1n_2...n_r} = \frac{n!}{n_1!n_2!...n_r!} \]

    证明:上式中,第一类中的对象有\(\binom{n}{n_1}\)种选择方式,第二类中的对象在剩余对象中有\(\binom{n-n_1}{n_2}\)种选择方式,依次类推,共有分类方式:

    \[\binom{n}{n_1}\binom{n-n_1}{n_2}...\binom{n-n_1-n_2-...-n_{r-1}}{n_r} \]

    \[= \frac{n!}{(n-n_1)!n_1!} \frac{(n-n_1)!}{(n-n_1-n_2)!n_2!}...\frac{(n-n_1-n_2-...n_r-1)!}{(n-n_1-n_2-...-n_{r-1}-n_r)!n_r!} \]

    \[=\frac{n!}{n_1!n_2!...n_r!} \]

    \(\binom{n}{n_1n_2...n_r}\)称为多项系数(multinomial coefficient),出现在下面的展开式中:

    \[(x_1 + x_2 + ... + x_r) ^ n = \sum \binom{n}{n_1n_2...n_r}x_1^{n_1}x_2^{n_2}...x_r^{n_r} \]

其中,求和下标是满足条件\(n_1 + n_2 + ... + n_r = n\)的所有非负整数\(n_1,n_2,...,n_r\)

条件概率

\(A\)\(B\)表示两事件,且\(P(B) \neq 0\)。给定事件\(B\)发生的条件下事件\(A\)发生的条件概率定义为:

\[P(A|B) = \frac{P(A \cap B)}{P(B)} \]

乘法定律:令\(A\)\(B\)表示两事件,且\(P(B) \neq 0\)。那么\(P(A \cap B) = P(A | B)P(B)\)

全概率定律:令\(B_1,B_2,...,B_n\)满足\(\bigcup \limits_{i=1}^{n}=\Omega,B_i \cap B_j = \varnothing,i \neq j\),且对所有的\(i\)\(P(B_i)>0\),那么对于任意的事件\(A\),有:(由因\(B_i\)及果)

\[P(A) = \sum_{i=1}^{n}P(A|B_i)P(B_i) \]

贝叶斯公式:令\(A\)\(B_1,B_2,...,B_n\)是事件,其中\(B_i\)不相交,$ \bigcup \limits_{i=1}^{n}B_i = \Omega\(,且对所有的\)i,P(B_i) > 0 \(。那么(由果\)A$及因)

\[P(B_j|A) = \frac{P(A|B_j)P(B_j)}{\sum_{i=1}^{n}P(A|B_i)P(B_i)} \]

独立性

直觉上,我们说两个事件\(A\)\(B\)独立是指:已知一个时间发生不能为我们提供另一个事件发生与否的信息,即\(P(A|B) =P(A)\)\(P(B|A) = P(B)\),现在如果

\[P(A) = P(A|B) = \frac{P(A \cap B) }{P(B)} \]

那么有\(P(A \cap B) = P(A) P(B)\),此时我们称事件\(A\)和事件\(B\)是独立的。

当我们考虑两个以上的事件时,情况变得更加复杂。此时两两独立不能保证相互独立,为此,我们定义事件集\(A_1,A_2,...,A_n\)是相互独立(mutually independent)的,如果任意的子集\(A_{i_1},A_{i_2},...A_{i_m}\)满足:

\[P(A_{i-1} \cap A_{i-2} \cap ... \cap A_{i_m}) = P(A_{i_1})P(A_{i_m})... \]

统计学派

频率方法(frequentist approach) 和 贝叶斯方法(Bayesian approach)

posted @ 2019-08-20 15:38  Evian_Jeff  阅读(292)  评论(0)    收藏  举报