概率论基本知识
条件概率
离散情况
^ff235e
[!tip] 推论
\[P(B|A)P(A)=P(A|B)P(B)=P(AB) \]
连续情况
条件期望和重期望
条件期望
重期望公式
全概率公式
^6c9cba
贝叶斯公式
在只有两个事件时
在多个事件时
^322785
[!hint]- 证明
对条件概率公式![[#ff235e]]的分母使用一次全概率公式![[#6c9cba]]
切比雪夫不等式
数字特征
均值、方差、协方差
-
均值
\[\mu=EX=\int xf(x)\mathrm dx \] -
方差
\[\sigma^2=Var(X)=\int (x-\mu)^2f(x)\mathrm dx \] -
复合随机变量的均值和方差
\[E(g(X))=\int g(x)f(x)\mathrm dx \]\[Var(g(X))=\int (g(x)-E(g(x)))^2f(x)\mathrm dx \] -
协方差
\[Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)] \]方差可以类似二项式展开,平方项用方差代替,乘积项用协方差代替。
\[Var(aX+bY)=a^2Var(x)+2abCov(X,Y)+b^2Var(Y) \]
矩
原点矩
零阶原点矩恒为 1
中心矩
零阶中心矩恒为 1
一阶中心矩恒为 0
由二项式定理,有
变异系数
峰度系数
其中,\(N\sim N(0,1)\)
偏度系数
常见分布
离散分布
名称 | 记号 | 分布 | 均值 | 方差 | 特征函数 |
---|---|---|---|---|---|
伯努利分布 | \(B(1,p)\) | \(p^k(1-p)^{1-k}\) | \(p\) | \(p(1-p)\) | \(p\mathrm e^{jt}+1-p\) |
二项分布 | \(B(n,p)\) | \(\begin{pmatrix}n\\k\end{pmatrix}p^k(1-p)^{n-k}\) | \(np\) | \(np(1-p)\) | \((p\mathrm e^{jt}+1-p)^n\) |
几何分布 | \(Ge(p)\) | \(p(1-p)^{k-1}\) | \(\dfrac{1}{p}\) | \(\dfrac{1-p}{p^2}\) | \(\dfrac{p\mathrm e^{jt}}{1-(1-p)\mathrm e^{jt}}\) |
帕斯卡分布 | \(NB(r,p)\) | \(\begin{pmatrix}k-1\\ r-1\end{pmatrix}p^r(1-p)^{k-r}\) | \(\dfrac{r}{p}\) [1] | \(\dfrac{r(1-p)}{p^2}\) | \((\dfrac{p\mathrm e^{jt}}{1-(1-p)\mathrm e^{jt}})^r\) |
超几何分布 | \(H(N,n,M)\) | \(\dfrac{\begin{pmatrix}M\\ k\end{pmatrix}\begin{pmatrix}N-M\\ n-k\end{pmatrix}}{\begin{pmatrix}N\\ n\end{pmatrix}}\) | \(\dfrac{nM}{N}\) | ||
泊松分布 | \(pois(\lambda)\) | \(\mathrm e^{-\lambda}\dfrac{\lambda^k}{k!}\) | \(\lambda\) | \(\lambda\) | \(\mathrm e^{\lambda(jt-1)}\) |
连续分布
名称 | 记号 | 概率密度函数 | 均值 | 方差 | 特征函数 |
---|---|---|---|---|---|
均匀分布 | \(U(a,b)\) | \(\dfrac{1}{b-a},x\in[a,b]\) | \(\dfrac{a+b}{2}\) | \(\dfrac{(b-a)^2}{12}\) | \(\dfrac{\mathrm e^{jtb}-\mathrm e^{jta}}{jt(b-a)}\) |
指数分布 | \(Exp(\lambda)\) | \(\lambda\mathrm e^{-\lambda t},x>0\) | \(\dfrac{1}{\lambda}\) | \(\dfrac{1}{\lambda^2}\) | \(\dfrac{\lambda}{\lambda-jt}\) |
正态分布 | \(N(\mu,\sigma^2)\) | \(\dfrac{1}{\sqrt{2\pi}\sigma}\exp(-\dfrac{(x-\mu)^2}{2\sigma^2})\) | \(\mu\) | \(\sigma\) | \(\exp(jt\mu-\dfrac{1}{2}\sigma^2t^2)\) |
卡方分布 | \(\chi^2(n)\) | \(\sum_{i=1}^n X^2_i,X_i\sim N(0,1)\) | \(n\) | \(2n\) | |
t 分布 | \(t(n)\) | \(\dfrac{X_1}{\sqrt{X_2/n}},X_1\sim N(0,1),X_2\sim\chi^2(N)\) | |||
F 分布 | \(F(m,n)\) | \(\dfrac{X_1/m}{X_2/n},X_1\sim\chi^2(m),X_2\sim\chi^2(n)\) |
多元正态分布
多元正态分布接受两个参数:均值向量 \(\boldsymbol\mu\) 和协方差矩阵 \(\boldsymbol\Sigma\),它的密度函数为
其中
- \(\boldsymbol x\)是变量向量,维数是 \(d\)
- \(\boldsymbol\mu\)是均值向量,维数是 \(d\)
- \(\boldsymbol\Sigma\)是正定对称矩阵,维数是 \(d\times d\)
[!note]
- 注意,系数上的行列式,在计算时矩阵前方的系数实际上还要再做\(d\)次幂运算。
- 由于协方差矩阵是正定的,因此它一定是非奇异的。
特别地,随机变量 \((X,Y)\) 服从二元正态分布,记作 \((X,Y)\sim N(\mu_1,\mu_2;\sigma^2_1,\sigma^2_2;\theta)\),\(\theta\)表示两个变量之间的相关系数。
从线性变换的角度看多元正态分布
零均值多元正态分布 \(N(\boldsymbol0,\boldsymbol\Sigma)\)可以看做标准多元正态分布 \(N(\boldsymbol 0,\boldsymbol E)\) 做线性变换得到的,其中\(\boldsymbol E\)是单位矩阵。
设随机变量向量 \(\boldsymbol X\sim N(\boldsymbol0,\boldsymbol E)\).
对 \(\boldsymbol X\) 做倍乘变换再做正交变换 \(Y=\boldsymbol{BAX}\),\(\boldsymbol A\)是对角矩阵,且 \(\boldsymbol A^2=\boldsymbol\Lambda\),\(\boldsymbol B\)是正交矩阵,有 \(\boldsymbol X=(\boldsymbol{BA})^{-1}\boldsymbol Y\),且\(\boldsymbol B^T=\boldsymbol B^{-1}\).
容易知道任意线性变换都可由\(\boldsymbol{BA}\)表出。
经过倍增变换,协方差矩阵变为 \(\boldsymbol\Lambda\). 正交变换不改变协方差行列式的值。
代入概率密度公式,有
根据线性代数知识 \(\det(\boldsymbol B\boldsymbol{A}^{-2}\boldsymbol B^{-1})=\det(\boldsymbol\Lambda)^{-1}\)
根据对称矩阵的性质,只要协方差矩阵与\(\boldsymbol\Lambda\)拥有相同的特征值(它的特征值即对角元),即可化为该形式。
因此可以得到结论,协方差矩阵的特征值决定随机变量的尺度,而均值向量决定随机变量的位置。
本节参考
边际分布和多维随机变量的独立性
多维随机变量的分布函数,当其中的一个或几个变量趋于无穷后,可以得到剩余变量的联合边际分布函数。
以二维随机变量\((X,Y)\)为例,其联合分布函数为\(F(x,y)\),则\(X\)的边际分布为
在离散场合,可以类似得到。
边际密度函数,只需要把上述的分布函数换成概率密度函数并相应积分,还是以二维随机变量为例
在涉及多维随机变量的积分时,要注意积分区域的确定。
多维随机变量的独立性
多维随机变量\(X_1,X_2,\cdots,X_n\)的联合分布函数为\(F(x_1,x_2,\cdots,x_n)\),边际分布为\(F_i(x_i)\),如果有
则称\(X_1,X_2,\cdots,X_n\)相互独立。
连续时,可以转化为密度函数
由此可以知道独立的随机变量积的期望等于期望的积,即
在更多维度的条件下也可以给出类似的结论。
并且由上面的性质可以得到独立的随机变量一定不相关(协方差为 0),注意,反之不一定成立,独立是比不相关更强的条件。
卷积
卷积是计算两随机变量分布和的方法。
离散情况
连续情况
当 \(X,Y\) 独立时,有
卷积运算是一个算子,通过两个函数生成第三个函数,记作
随机变量序列的两种收敛
假设随机变量序列\(\{X_n\}\)的分布函数序列为\(\{F_n(x)\}\),\(X\)为任意给定的随机变量。
依概率收敛
记作\(X_n\stackrel{P}{\longrightarrow}X\)
按分布收敛
记作\(X_n\stackrel{L}{\longrightarrow}X\)
性质
依概率收敛强于按分布收敛。并且依概率收敛可以推出按分布收敛。
在\(X\)服从退化分布时,二者是等价的,即
特征函数
称为随机变量的特征函数。
常见分布的特征函数列在了上面的表格里。
特征函数有如下性质:
- \(|\varphi(t)|\leq\varphi(0)=1\)
- \(\varphi(-t)=\overline{\varphi(t)}\)
- 若\(Y=aX+b\),则\[\varphi_Y(t)=\mathrm e^{ibt}\varphi_X(at) \]
- 若随机变量\(X,Y\)独立,则\[\varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t) \]
- \(\varphi^{(0)}(t)=i^kE(X^k)\),可以通过这个性质求随机变量的各阶原点矩(如果存在),进而求出中心矩。
- 特征函数和分布函数相互唯一确定。
大数定律
大数定律告诉我们在伯努利实验中频率依概率收敛到概率,即频率的回归性。同时也提供了经验分布函数和矩估计的理论依据。
大数定律的形式
假设\(\{X_n\}\)为一组期望存在的随机变量序列,\(\overline X\)为它们的平均数。有
或按书本上的形式
几个大数定律的前提
-
伯努利大数定律
\(\{X_n\}\)独立同分布且服从两点分布\(B(1,p)\)
此时大数定律表述为
\[\overline X\stackrel{P}{\longrightarrow}p \]也就是说,频率依概率收敛到概率(在伯努利实验中,平均数就是实验成功的频率)。
-
切比雪夫大数定律
\(\{X_n\}\)两两不相关,每个\(X_i\)的方差存在。
-
马尔可夫大数定律
\[\lim_{n\to\infty}\dfrac{1}{n^2}Var(\sum_{i=1}^n X_i)=0 \] -
辛钦大数定律
\(X_i\)独立同分布,假设它们的数学期望为\(EX\),那么大数定律又可以表述为
\[\overline X\stackrel{P}{\longrightarrow}EX \]
辛钦大数定律
由辛钦大数定律可以得出,如果独立同分布的随机变量序列\(\{X_n\}\)的k阶原点矩存在,那么随机变量序列\(\{X_n^k\}\)也服从大数定律。在数理统计中,这给了我们矩估计的理论依据。
中心极限定理
中心极限定律告诉我们独立随机变量和的分布收敛于正态分布。
多个误差的叠加可以认为服从正态分布,因此,正态分布是很多统计方法中的先验分布。
林德伯格-莱维中心极限定理
如果随机变量序列\(\{X_n\}\)独立同分布,\(EX_i=\mu,VarX_i=\sigma^2\),记
则 \(Y_n^*\stackrel{L}{\longrightarrow}N,N\sim N(0,1)\)
棣莫弗-拉普拉斯中心极限定理
\(X_n\sim B(n,p),q=1-p\),记
则 \(Y_n^*\stackrel{L}{\longrightarrow}N,N\sim N(0,1)\)
棣莫弗-拉普拉斯中心极限定理是林德伯格-莱维中心极限定理的一个特殊情况,但是非常重要,因为它告诉我们当n足够大时,可以用来正态分布近似计算二项分布(当n很大时,计算是非常困难的,因为涉及到n的阶乘和n的指数运算)。
教科书的经验公式提出
- 在\(p\)较小时,用泊松分布近似较好
- 在\(np>5,nq>5\)时,用正态分布近似较好
林德伯格中心极限定理
如果独立的随机变量序列\(\{X_n\}\)满足林德伯格条件,那么
其中
- \(B=\sqrt{\sum_{i=1}^n Var(X_i)}\)
- \(\mu_i=EX_i\)
由于林德伯格条件比较繁杂,而且在实际的应用上较难验证,在此不赘述,感兴趣的读者可以移步至MathWorld查看。
李雅普诺夫中心极限定理
\(\exists\delta>0,s.t.\)
则
其中
- \(B=\sqrt{\sum_{i=1}^n Var(X_i)}\)
- \(\mu_i=EX_i\)
这两个有关非同分布的中心极限定理理论指导意义比较大,而(在本科阶段)应用较少。