概率论基本知识

条件概率

离散情况

\[P(B|A)=\dfrac{P(AB)}{P(A)} \]

^ff235e

[!tip] 推论

\[P(B|A)P(A)=P(A|B)P(B)=P(AB) \]

连续情况

\[f_{Y|X}(y|x)=\dfrac{f(x,y)}{f_X(x)} \]

条件期望和重期望

条件期望

\[E(X|Y=y)=\int xp_{X|Y}(x|y)\mathrm dx \]

重期望公式

\[E(X)=E(E(X|Y))=\sum E(X|Y)P(Y) \]

全概率公式

\[P(A)=\sum_{i=1}^nP(A|B_i)P(B_i) \]

^6c9cba

贝叶斯公式

在只有两个事件时

\[P(B|A)=\dfrac{P(A|B)P(B)}{P(A|B)P(B)+P(A|\bar B)P(\bar B)} \]

在多个事件时

\[P(B_i|A)=\dfrac{P(A|B_i)P(B_i)}{\sum_{i=1}^nP(A|B_i)P(B_i)} \]

^322785

[!hint]- 证明
对条件概率公式![[#^{ff235e]]的分母使用一次全概率公式![[#}6c9cba]]

切比雪夫不等式

\[P(|X-\mu|\geq k)\leq \dfrac{\sigma^2}{k^2} \]

数字特征

均值、方差、协方差

均值

\[\mu=EX=\int xf(x)\mathrm dx \]
方差

\[\sigma^2=Var(X)=\int (x-\mu)^2f(x)\mathrm dx \]
复合随机变量的均值和方差

\[E(g(X))=\int g(x)f(x)\mathrm dx \]
\[Var(g(X))=\int (g(x)-E(g(x)))^2f(x)\mathrm dx \]
协方差

\[Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)] \]
方差可以类似二项式展开，平方项用方差代替，乘积项用协方差代替。

\[Var(aX+bY)=a^2Var(x)+2abCov(X,Y)+b^2Var(Y) \]

矩

原点矩

\[v_k=\int x^kf(x)\mathrm dx \]

零阶原点矩恒为 1

中心矩

\[\mu_k=\int (x-\mu)^kf(x)\mathrm dx \]

零阶中心矩恒为 1

一阶中心矩恒为 0

由二项式定理，有

\[\mu_k=\sum_{i=0}^k \begin{pmatrix} k\\ i \end{pmatrix} v_i(-\mu)^{k-i} \]

变异系数

\[C_v(X)=\dfrac{\sqrt{Var(X)}}{E(X)}=\dfrac{\sigma}{\mu} \]

峰度系数

\[kurtosis=\dfrac{\mu_4}{\sigma^4}-3=E(\dfrac{X-\mu}{\sigma})^4-E(N)^4 \]

其中，\(N\sim N(0,1)\)

偏度系数

\[skewness=\dfrac{\mu_3}{\sigma^3}=E(\dfrac{X-\mu}{\sigma})^3 \]

常见分布

离散分布

名称	记号	分布	均值	方差	特征函数
伯努利分布	\(B(1,p)\)	\(p^k(1-p)^{1-k}\)	\(p\)	\(p(1-p)\)	\(p\mathrm e^{jt}+1-p\)
二项分布	\(B(n,p)\)	\(\begin{pmatrix}n\\k\end{pmatrix}p^k(1-p)^{n-k}\)	\(np\)	\(np(1-p)\)	\((p\mathrm e^{jt}+1-p)^n\)
几何分布	\(Ge(p)\)	\(p(1-p)^{k-1}\)	\(\dfrac{1}{p}\)	\(\dfrac{1-p}{p^2}\)	\(\dfrac{p\mathrm e^{jt}}{1-(1-p)\mathrm e^{jt}}\)
帕斯卡分布	\(NB(r,p)\)	\(\begin{pmatrix}k-1\\ r-1\end{pmatrix}p^r(1-p)^{k-r}\)	\(\dfrac{r}{p}\) ^[1]	\(\dfrac{r(1-p)}{p^2}\)	\((\dfrac{p\mathrm e^{jt}}{1-(1-p)\mathrm e^{jt}})^r\)
超几何分布	\(H(N,n,M)\)	\(\dfrac{\begin{pmatrix}M\\ k\end{pmatrix}\begin{pmatrix}N-M\\ n-k\end{pmatrix}}{\begin{pmatrix}N\\ n\end{pmatrix}}\)	\(\dfrac{nM}{N}\)
泊松分布	\(pois(\lambda)\)	\(\mathrm e^{-\lambda}\dfrac{\lambda^k}{k!}\)	\(\lambda\)	\(\lambda\)	\(\mathrm e^{\lambda(jt-1)}\)

连续分布

名称	记号	概率密度函数	均值	方差	特征函数
均匀分布	\(U(a,b)\)	\(\dfrac{1}{b-a},x\in[a,b]\)	\(\dfrac{a+b}{2}\)	\(\dfrac{(b-a)^2}{12}\)	\(\dfrac{\mathrm e^{jtb}-\mathrm e^{jta}}{jt(b-a)}\)
指数分布	\(Exp(\lambda)\)	\(\lambda\mathrm e^{-\lambda t},x>0\)	\(\dfrac{1}{\lambda}\)	\(\dfrac{1}{\lambda^2}\)	\(\dfrac{\lambda}{\lambda-jt}\)
正态分布	\(N(\mu,\sigma^2)\)	\(\dfrac{1}{\sqrt{2\pi}\sigma}\exp(-\dfrac{(x-\mu)^2}{2\sigma^2})\)	\(\mu\)	\(\sigma\)	\(\exp(jt\mu-\dfrac{1}{2}\sigma^2t^2)\)
卡方分布	\(\chi^2(n)\)	\(\sum_{i=1}^n X^2_i,X_i\sim N(0,1)\)	\(n\)	\(2n\)
t 分布	\(t(n)\)	\(\dfrac{X_1}{\sqrt{X_2/n}},X_1\sim N(0,1),X_2\sim\chi^2(N)\)
F 分布	\(F(m,n)\)	\(\dfrac{X_1/m}{X_2/n},X_1\sim\chi^2(m),X_2\sim\chi^2(n)\)

多元正态分布

多元正态分布接受两个参数：均值向量 \(\boldsymbol\mu\) 和协方差矩阵 \(\boldsymbol\Sigma\)，它的密度函数为

\[f(\boldsymbol x;\boldsymbol\mu,\boldsymbol\Sigma)=\dfrac{1}{\sqrt{\det(2\pi\Sigma)}}\exp(-\dfrac{1}{2}(\boldsymbol x-\boldsymbol\mu)^T\Sigma^{-1}(\boldsymbol x-\boldsymbol\mu)) \]

其中

\(\boldsymbol x\)是变量向量，维数是 \(d\)
\(\boldsymbol\mu\)是均值向量，维数是 \(d\)
\(\boldsymbol\Sigma\)是正定对称矩阵，维数是 \(d\times d\)

[!note]

注意，系数上的行列式，在计算时矩阵前方的系数实际上还要再做\(d\)次幂运算。

由于协方差矩阵是正定的，因此它一定是非奇异的。

特别地，随机变量 \((X,Y)\) 服从二元正态分布，记作 \((X,Y)\sim N(\mu_1,\mu_2;\sigma^2_1,\sigma^2_2;\theta)\)，\(\theta\)表示两个变量之间的相关系数。

从线性变换的角度看多元正态分布

零均值多元正态分布 \(N(\boldsymbol0,\boldsymbol\Sigma)\)可以看做标准多元正态分布 \(N(\boldsymbol 0,\boldsymbol E)\) 做线性变换得到的，其中\(\boldsymbol E\)是单位矩阵。

设随机变量向量 \(\boldsymbol X\sim N(\boldsymbol0,\boldsymbol E)\).

对 \(\boldsymbol X\) 做倍乘变换再做正交变换 \(Y=\boldsymbol{BAX}\)，\(\boldsymbol A\)是对角矩阵，且 \(\boldsymbol A^2=\boldsymbol\Lambda\)，\(\boldsymbol B\)是正交矩阵，有 \(\boldsymbol X=(\boldsymbol{BA})^{-1}\boldsymbol Y\)，且\(\boldsymbol B^T=\boldsymbol B^{-1}\).

容易知道任意线性变换都可由\(\boldsymbol{BA}\)表出。

经过倍增变换，协方差矩阵变为 \(\boldsymbol\Lambda\). 正交变换不改变协方差行列式的值。

代入概率密度公式，有

\[\begin{aligned} f(\boldsymbol y) &=\dfrac{1}{\sqrt{2^d\pi^d\det(\boldsymbol\Lambda)}}\exp(-\dfrac{1}{2}((\boldsymbol{BA})^{-1}\boldsymbol y)^T(\boldsymbol{BA})^{-1}\boldsymbol y))\\ &=\dfrac{1}{\sqrt{2^d\pi^d\det(\boldsymbol\Lambda)}}\exp(-\dfrac{1}{2}\boldsymbol y^T(\boldsymbol B\boldsymbol{\Lambda}^{-1}\boldsymbol B^{-1})\boldsymbol y) \end{aligned} \]

根据线性代数知识 \(\det(\boldsymbol B\boldsymbol{A}^{-2}\boldsymbol B^{-1})=\det(\boldsymbol\Lambda)^{-1}\)

根据对称矩阵的性质，只要协方差矩阵与\(\boldsymbol\Lambda\)拥有相同的特征值（它的特征值即对角元），即可化为该形式。

因此可以得到结论，协方差矩阵的特征值决定随机变量的尺度，而均值向量决定随机变量的位置。

本节参考

知乎 - Xinyu Chen的回答

MATLAB官方文档

边际分布和多维随机变量的独立性

多维随机变量的分布函数，当其中的一个或几个变量趋于无穷后，可以得到剩余变量的联合边际分布函数。

以二维随机变量\((X,Y)\)为例，其联合分布函数为\(F(x,y)\)，则\(X\)的边际分布为

\[F_X(x)=\lim_{y\to+\infty}F(x,y) \]

在离散场合，可以类似得到。

边际密度函数，只需要把上述的分布函数换成概率密度函数并相应积分，还是以二维随机变量为例

\[p_X(x)=\int_{-\infty}^{+\infty} p(x,y)\mathrm dy \]

在涉及多维随机变量的积分时，要注意积分区域的确定。

多维随机变量的独立性

多维随机变量\(X_1,X_2,\cdots,X_n\)的联合分布函数为\(F(x_1,x_2,\cdots,x_n)\)，边际分布为\(F_i(x_i)\)，如果有

\[F(x_1,x_2,\cdots,x_n)=\prod_{i=1}^n F_i(x_i) \]

则称\(X_1,X_2,\cdots,X_n\)相互独立。

连续时，可以转化为密度函数

\[p(x_1,x_2,\cdots,x_n)=\prod_{i=1}^n p_i(x_i) \]

由此可以知道独立的随机变量积的期望等于期望的积，即

\[E(XY)=E(X)E(Y) \]

在更多维度的条件下也可以给出类似的结论。

并且由上面的性质可以得到独立的随机变量一定不相关（协方差为 0），注意，反之不一定成立，独立是比不相关更强的条件。

卷积

卷积是计算两随机变量分布和的方法。

离散情况

\[P(X+Y=k)=\sum_{i=-\infty}^{+\infty}P(X=i,Y=k-i) \]

连续情况

\[P(X+Y\lt t)=\int_{-\infty}^{+\infty}f(s,t-s)\mathrm ds \]

当 \(X,Y\) 独立时，有

\[P(X+Y\lt t)=\int_{-\infty}^{+\infty}f(s)g(t-s)\mathrm ds \]

卷积运算是一个算子，通过两个函数生成第三个函数，记作

\[(f\circ g)(x)=\int_{-\infty}^{+\infty}f(s)g(x-s)\mathrm ds \]

随机变量序列的两种收敛

假设随机变量序列\(\{X_n\}\)的分布函数序列为\(\{F_n(x)\}\)，\(X\)为任意给定的随机变量。

依概率收敛

\[\forall\epsilon\gt0,\lim_{n\to\infty}P(|X_n-X|\geq\epsilon)=0 \]

记作\(X_n\stackrel{P}{\longrightarrow}X\)

按分布收敛

\[\lim_{n\to\infty}F_n(x)=F(x) \]

记作\(X_n\stackrel{L}{\longrightarrow}X\)

性质

依概率收敛强于按分布收敛。并且依概率收敛可以推出按分布收敛。

在\(X\)服从退化分布时，二者是等价的，即

\[X_n\stackrel{P}{\longrightarrow}c\iff X_n\stackrel{L}{\longrightarrow}c \]

特征函数

\[\varphi(t)=E(\mathrm e^{itX})=\int \mathrm e^{itx}\mathrm dF(x) \]

称为随机变量的特征函数。

常见分布的特征函数列在了上面的表格里。

特征函数有如下性质：

\(|\varphi(t)|\leq\varphi(0)=1\)
\(\varphi(-t)=\overline{\varphi(t)}\)
若\(Y=aX+b\)，则
\[\varphi_Y(t)=\mathrm e^{ibt}\varphi_X(at) \]
若随机变量\(X,Y\)独立，则
\[\varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t) \]
\(\varphi^{(0)}(t)=i^kE(X^k)\)，可以通过这个性质求随机变量的各阶原点矩（如果存在），进而求出中心矩。
特征函数和分布函数相互唯一确定。

大数定律

大数定律告诉我们在伯努利实验中频率依概率收敛到概率，即频率的回归性。同时也提供了经验分布函数和矩估计的理论依据。

大数定律的形式

假设\(\{X_n\}\)为一组期望存在的随机变量序列，\(\overline X\)为它们的平均数。有

\[\overline X\stackrel{P}{\longrightarrow}\dfrac 1n\sum_{i=1}^nE(X_i) \]

或按书本上的形式

\[\lim_{n\to\infty}P(\left|\dfrac 1n\sum_{i=1}^n X_i-\dfrac 1n\sum_{i=1}^nE(X_i)\right|<\varepsilon)=1 \]

几个大数定律的前提

伯努利大数定律

\(\{X_n\}\)独立同分布且服从两点分布\(B(1,p)\)

此时大数定律表述为

\[\overline X\stackrel{P}{\longrightarrow}p \]
也就是说，频率依概率收敛到概率（在伯努利实验中，平均数就是实验成功的频率）。
切比雪夫大数定律

\(\{X_n\}\)两两不相关，每个\(X_i\)的方差存在。
马尔可夫大数定律

\[\lim_{n\to\infty}\dfrac{1}{n^2}Var(\sum_{i=1}^n X_i)=0 \]
辛钦大数定律

\(X_i\)独立同分布，假设它们的数学期望为\(EX\)，那么大数定律又可以表述为

\[\overline X\stackrel{P}{\longrightarrow}EX \]

辛钦大数定律

由辛钦大数定律可以得出，如果独立同分布的随机变量序列\(\{X_n\}\)的k阶原点矩存在，那么随机变量序列\(\{X_n^k\}\)也服从大数定律。在数理统计中，这给了我们矩估计的理论依据。

中心极限定理

中心极限定律告诉我们独立随机变量和的分布收敛于正态分布。

多个误差的叠加可以认为服从正态分布，因此，正态分布是很多统计方法中的先验分布。

林德伯格-莱维中心极限定理

如果随机变量序列\(\{X_n\}\)独立同分布，\(EX_i=\mu,VarX_i=\sigma^2\)，记

\[Y_n^*=\dfrac{\sum_{i=1}^n(X_i-\mu)}{\sqrt{n}\sigma} \]

则 \(Y_n^*\stackrel{L}{\longrightarrow}N,N\sim N(0,1)\)

棣莫弗-拉普拉斯中心极限定理

\(X_n\sim B(n,p),q=1-p\)，记

\[Y_n^*=\dfrac{X_n-np}{\sqrt{npq}} \]

则 \(Y_n^*\stackrel{L}{\longrightarrow}N,N\sim N(0,1)\)

棣莫弗-拉普拉斯中心极限定理是林德伯格-莱维中心极限定理的一个特殊情况，但是非常重要，因为它告诉我们当n足够大时，可以用来正态分布近似计算二项分布（当n很大时，计算是非常困难的，因为涉及到n的阶乘和n的指数运算）。

教科书的经验公式提出

在\(p\)较小时，用泊松分布近似较好
在\(np>5,nq>5\)时，用正态分布近似较好

林德伯格中心极限定理

如果独立的随机变量序列\(\{X_n\}\)满足林德伯格条件，那么

\[\dfrac 1B\sum_{i=1}^n(X_i-\mu_i)\stackrel{L}{\longrightarrow}N,N\sim N(0,1) \]

其中

\(B=\sqrt{\sum_{i=1}^n Var(X_i)}\)
\(\mu_i=EX_i\)

由于林德伯格条件比较繁杂，而且在实际的应用上较难验证，在此不赘述，感兴趣的读者可以移步至MathWorld查看。

李雅普诺夫中心极限定理

\(\exists\delta>0,s.t.\)

\[\lim_{n\to\infty}\dfrac{1}{B^{2+\delta}}\sum_{i=1}^nE(\left|X_i-\mu_i\right|^{2+\delta})=0 \]

则

\[\dfrac 1B\sum_{i=1}^n(X_i-\mu_i)\stackrel{L}{\longrightarrow}N,N\sim N(0,1) \]

其中

\(B=\sqrt{\sum_{i=1}^n Var(X_i)}\)
\(\mu_i=EX_i\)

这两个有关非同分布的中心极限定理理论指导意义比较大，而（在本科阶段）应用较少。

https://zhuanlan.zhihu.com/p/36270529 ↩︎

posted @ 2024-04-16 18:21 Kengroo 阅读(108) 评论(0) 收藏举报

刷新页面返回顶部

Kengroo

概率论基本知识

条件概率

离散情况

连续情况

条件期望和重期望

全概率公式

贝叶斯公式

切比雪夫不等式

数字特征

均值、方差、协方差

矩

原点矩

中心矩

变异系数

峰度系数

偏度系数

常见分布

离散分布

连续分布

多元正态分布

从线性变换的角度看多元正态分布

本节参考

边际分布和多维随机变量的独立性

多维随机变量的独立性

卷积

离散情况

连续情况

随机变量序列的两种收敛

依概率收敛

按分布收敛

性质

特征函数

大数定律

大数定律的形式

几个大数定律的前提

辛钦大数定律

中心极限定理

林德伯格-莱维中心极限定理

棣莫弗-拉普拉斯中心极限定理

林德伯格中心极限定理

李雅普诺夫中心极限定理

公告