香港中文大学(深圳) STA2001 - Probability and Statistics I 笔记
笔记包括2025年暑期学期该课程的内容
一部分较基础的知识在DDA2001中已经涉及,因此这里没有重复
-
一些基础概念
- Sample Space 样本空间:一个随机试验(Random Experiment)的所有可能结果的集合
- Event 事件:一个样本空间的一个子集
- 若干集合\(A_1,A_2\cdots A_k\)之间的关系
- Mutually Exclusive 互斥的\(\Leftrightarrow \forall i \neq j,A_i\cap A_j=\emptyset\)
- Exhaustive 穷尽的,并集为全集
-
两种抽样方式
- Ordered Sample:选择r个样本,并记录选择的顺序
- Unordered Sample:选择r个样本,不关心选择的顺序
抽样中涉及的一个记号:\(_nP_r=\frac{n!}{(n-r)!}\)
-
条件概率公式:\(P(R|E)=\frac{P(R\cap E)}{P(E)}\)
-
Independent Events 独立事件:若\(P(A\cap B)=P(A)P(B)\),则\(A,B\)独立
若\(A,B,C\)两两独立,且\(P(A\cap B\cap C)=P(A)P(B)P(C)\),则\(A,B,C\)相互独立(Mutually Independent);可以扩展到三个以上的事件(即任意非空子集内的事件都满足这个等式) -
Random Variable 随机变量:令\(S\)为一个样本空间,\(T\)为一个实数集,映射\(X: S\to T\)是一个随机变量。随机变量(也就是这个函数本身)一般用大写字母表示,它取的值一般用小写字母表示
-
图形化表示PMF的两种方式:线图(Line Graph)和直方图(Probability Histogram)
若是连续随机变量,可以把样本空间分成若干段,每一段当成一个事件
-
\(Var(X)=E(X^2)-(E(X))^2\)
-
\(r\)阶矩(Moment):
计算 \(X\) 的 \(r\) 次方的均值,即 \(E[X^r] = \sum_{x \in S} x^r f(x)\)\(r\)阶中心矩(\(r\) th moment of \(X\) about \(b\)):
计算 \((X - b)\) 的 \(r\) 次方的均值,即 \(E[(X - b)^r] = \sum_{x \in S} (x - b)^r f(x)\)\(r\)阶阶乘矩(\(r\) th factorial moment):
计算 \(X\) 乘以 \((X-1)\) 乘以 \((X-2)\) ... 直到 \((X-r+1)\) 的均值,即 \(E[(X)_r] = E[X(X-1)\cdots(X-r+1)]\) -
Moment Generating Function 矩生成函数
若\(E(e^{tX})=\sum_{x\in\overline S} e^{tx}f(x)\)在一个包含0的开区间内存在(也就是收敛),则\(M(t)=E(e^{tX})\)是随机变量\(X\)的一个矩生成函数
矩生成函数的性质:
- \(M(0)=1,M'(0)=E(X),M''(0)=E(X^2)\)
- 若两个随机变量的矩生成函数相同,它们的PMF/PDF就相同
- 理论上不可能出现一个离散随机变量和一个连续随机变量的MGF相同的情况
典型的矩生成函数形式:
- \(M(t)=(pe^t+(1-p))^n\):二项分布
- \(M(t)=\frac{pe^t}{1-(1-p)e^t}\):几何分布(随机变量定义为"到第一次成功为止的总试验次数")
- 更多的见下面的常见随机分布
-
常见离散随机分布
-
Bernoulli Distribution 伯努利分布:一次试验
-
Binomial Distribution 二项分布:做一定次数的试验,看成功的次数
\(E(X)=np,\ Var(X)=np(1-p),E(X(X-1))=n(n-1)p^2,M(t)=[(1-p)+pe^t]^n\)
-
Negative Binomial Distribution 负二项分布:刚好观察到\(r\)次成功的期望试验次数
负二项分布的PMF为:\(f(x) = \binom{x-1}{r-1} p^r (1-p)^{x-r}\),其中 \(x = r, r+1, \ldots\)。
\(E(X)=\frac rp,Var(X)=\frac{r(1-p)}{p^2},M(t)=\frac{(pe^t)^r}{[1-(1-p)e^t]^r}\)
-
Geometric Distribution 几何分布:\(r=1\)的负二项分布,是负二项分布的一个特例
\(E(X)=\frac 1p,\ Var(X)=\frac{1-p}{p^2},M(t)=\frac{pe^t}{1-(1-p)e^t}\)
-
Uniform Distribution (Discrete, 即在\([a,b]\)内的整数中随机取):\(\forall x,y\in\overline S,f(x)=f(y)\)
\(E(X)=\frac{a+b}2,Var(X)=\frac{(b-a+1)^2-1}{12}\)
-
Poisson Distribution 泊松分布
- Approximate Poisson Process 近似泊松过程:满足以下条件的情况
- 事件在不重叠的时间段内发生互不影响
- 极短时间内,事件发生一次的概率与时间长度成正比
- 极短时间内,不可能发生两次或以上事件
令\(\lambda\)为单位时间内发生一件事的平均次数,令单位时间内实际发生次数为\(X\),则泊松分布PMF为
\(f(k)=P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}\)
若一个随机变量的分布符合以上形式,可以直接判断其就是泊松分布。
\(E(X)=Var(X)=\lambda,M(t)=e^{\lambda(e^t-1)}\)
- Approximate Poisson Process 近似泊松过程:满足以下条件的情况
-
-
常见连续随机分布
-
Uniform Distribution (Continuous)
标准定义下,其在边界点上的PDF不为0
\(E(x)=\frac{a+b}2,Var(X)=\frac{(b-a)^2}{12}\)
-
Exponential Distribution 指数分布:一个近似泊松过程中,第一次事件发生前等待的时间
推导过程:
在时间\([0,w]\)内没有事件发生的概率是\(e^{-\lambda w}\),因此CDF \(F(w)=1-e^{-\lambda w}\),求导得到:
PDF \(f(w)=\lambda e^{-\lambda w}\),标准形式为\(f(x)=\frac1\theta e^{-\frac x\theta}(\theta=\frac1\lambda)\)
\(E(X)=\theta=\frac1\lambda,Var(X)=\theta^2=\frac1{\lambda^2},M(t)=\frac1{1-t\theta}\)
-
Gamma Distribution 伽马分布:一个近似泊松过程中,第\(\alpha\)次事件发生前等待的时间
\(F(w)=1-\sum_{k=0}^{\alpha-1}\frac{(\lambda w)^ke^{-\lambda w}}{k!}\)
\(f(w)=F'(w)=\frac{\lambda^\alpha w^{\alpha-1}}{(\alpha-1)!}e^{-\lambda w}\)
\(E(X)=\alpha\theta=\frac\alpha\lambda,Var(X)=\alpha\theta^2=\frac\alpha{\lambda^2},M(t)=\frac1{(1-t\theta)^\alpha}\)
通过定义一般化的阶乘函数Gamma函数\(\Gamma(t)=\int_0^\infty y^{t-1}e^{-y}dy\),可以把Gamma分布扩展到\(\alpha\)不是正整数的情况
-
Chi-square Distribution 卡方分布:自由度为整数\(r\)的卡方分布是\(\alpha=\frac r2,\lambda=\frac12\)的Gamma分布
\(f(x)=\frac{(\frac12)^{\frac r2}x^{\frac r2-1}}{\Gamma(\frac r2)}e^{-\frac x2}\)
\(E(X)=r,Var(X)=2r,M(t)=(1-2t)^{-\frac r2}\)
-
Normal Distribution 正态分布
\(f(x)=\frac1{\sqrt{2\pi\sigma^2}}exp(-\frac12\cdot \frac{(x-\mu)^2}{\sigma^2})\),其中\(\mu\)是均值,\(\sigma^2\)是方差,\(X\sim N(\mu,\sigma^2)\)
\(M(t)=exp(\mu t+\frac12\sigma^2t^2)\)
在标准正态分布(\(\mu=0,\sigma=1\))中,\(z_\alpha\)是一个满足\(P(Z\geq z_\alpha)=\alpha\)的值
正态分布和卡方分布的关系:\(X\sim N(\mu,\sigma^2)\),则\(\frac{(X-\mu)^2}{\sigma^2}\sim \chi^2(1)\)
-
-
百分位数的表示:可以用\(\pi_p\)的形式来表示百分位数,如\(\pi_{0.25}\)表示第25百分位数
-
Bivariate/Multivariate Distribution 二元/多元分布:结果是两个标量的分布,根据结果是否能与自然数一一对应分为Discrete和Continuous两种
-
离散类型
-
Joint PMF: \(f(x,y)\)表示\(\{x,y\}\)发生的概率
-
Marginal PMF: 边际概率质量函数,即其中一个随机变量等于某个值的概率,\(f_X(x)=P(X=x)\)
-
Trinomial Distribution 三项分布:一种与二元分布相关的离散随机分布
简单来说就是每次试验有三种互斥且穷尽的结果,做\(n\)次试验,看每种结果出现的次数。和二项分布挺像的,毕竟名字都差不多
-
Independent Discrete Random Variables 独立离散随机变量:\(\forall x\ y,f(x,y)=f_X(x)f_Y(y)\)
当\(X,Y\)独立时,它们的二元分布的样本空间\(\overline S\)被称为是Rectangular的
-
Conditional PMF: \(g(x|y)=\frac{f(x,y)}{f_Y(y)}\)
若\(X,Y\)独立,则\(g(x|y)=f_X(x)\)
-
-
连续类型
为了方便,经常把这种类型的样本空间扩展到\(\mathbb R\times\mathbb R\)
-
Joint PDF:类似Joint PMF
-
Marginal PDF:类似Marginal PMF,\(f_X(x)=\int_{\overline{S_Y(x)}}f(x,y)dy\)
-
Independent Continuous Random Variables 独立连续随机变量:\(\forall x\ y,f(x,y)=f_X(x)f_Y(y)\)
当\(X,Y\)独立时,它们的二元分布的样本空间\(\overline S\)被称为是Rectangular的
-
Conditional PDF: \(g(x|y)=\frac{f(x,y)}{f_Y(y)}\)
-
-
多于两个随机变量的情况
当\(f(x_1\cdots x_n)=\prod f_{X_i}(x_i)\)时,称这些随机变量相互(mutually)独立。一个必要条件是\(\overline S=\prod \overline{S_{X_i}}\)
-
Random Sample of Size \(n\) From a Common Distribution:
\(n\)个独立的、同分布的随机变量。此时它们满足\(f(x_1\cdots x_n)=\prod f_{X_i}(x_i)\)
-
若\(X_1\cdots X_n\)独立,则\(E(\prod u_i(X_i))=\prod E(u_i(X_i))\)
-
若\(X_1\cdots X_n\)独立,令\(Y=\sum a_iX_i\),则\(E(Y)=\sum a_i\mu_i,Var(Y)=\sum a^2_i\sigma^2_i\)
-
以上两条在\(X_1\cdots X_n\)不同分布的情况下也适用
-
-
Covariance 协方差:
\(Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)\)
-
协方差和两变量关联的关系:
-
\(=0\),不相关
-
\(>0\),正相关
-
\(<0\),负相关
-
-
\(X,Y\)独立\(\Rightarrow Cov(X,Y)=0\),但反之不成立
-
\(Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\)
-
-
Correlation Coefficient 相关系数:对于两个方差不为0的变量,\(\rho(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}\)
\(\rho(X,Y)\in[-1,1]\)
\(\rho(X,Y)=1\Leftrightarrow \exist c\ s.t.\ Y-E(Y)=c(X-E(X))\)
-
Bivariate Normal Distribution 二元正态分布:
PDF \(f(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}}\exp\left[-\frac{1}{2}q(x,y)\right]\),其中\(q(x,y) = \frac{1}{1-\rho^2}\left[\left(\frac{x-\mu_X}{\sigma_X}\right)^2 - 2\rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\mu_Y}{\sigma_Y}\right) + \left(\frac{y-\mu_Y}{\sigma_Y}\right)^2\right],|\rho|<1\)
-
性质:
\(X\sim N(\mu_X,\sigma^2_X),Y\sim N(\mu_Y,\sigma^2_Y)\)
\(Y=y\)时\(X\sim N(\mu_X+\frac{\sigma_X}{\sigma_Y}\rho(y-\mu_Y),(1-\rho^2)\sigma^2_X)\);\(X=x\)时\(Y\sim N(\mu_Y+\frac{\sigma_Y}{\sigma_X}\rho(x-\mu_X),(1-\rho^2)\sigma^2_Y)\)
-
-
-
Function of One Random Variable 包含一个随机变量的函数
-
\(X\)离散:
令\(Y=u(X)\),则PMF/PDF \(g(y)=P(u(X)=y)=P(X=v(y))\),真正计算\(Y\)的PMF/PDF的时候也是用这个等式
-
\(X\)连续,令\(c\)为\(u(x)\)下界:
- \(Y=u(X)\)连续且递增,有反函数\(X=v(Y)\),则\(G(y)=\int_c^{v(y)}f(x)dx\)
- \(Y=u(X)\)连续且递减,有反函数\(X=v(Y)\),则\(G(y)=1-\int_c^{v(y)}f(x)dx\)
-
-
Inverse Transform Sampling 逆变换采样定理
令\(Y\sim U(0,1)\),\(F(x)\)为一个连续RV的CDF,则\(X=F^{-1}(Y)\)是一个具有CDF \(F(x)\)的RV
证明:\(P(X\leq x)=P(F^{-1}(Y)\leq x)=P(Y\leq F(x))=F(x)\)
-
概率积分变换
若\(X\)是\(\overline{S_X}=(a,b)\)的连续随机变量,且CDF \(F(x)\)递增,则\(Y=F(X)\sim U(0,1)\)
证明:\(P(Y\leq y)=P(F(X)\leq y)=P(X\leq F^{-1}(y))=F(F^{-1}(y))=y\)
-
Statistic 统计量
一个关于随机样本\(X_1\cdots X_n\)且不包含任何其它未知数的函数,称为统计量(Statistic)
例:样本均值(Sample Mean)\(\overline X=\frac1n\sum X_i\)。样本均值是一个统计量,同时也是分布的均值\(\mu\)的一个估计量(Estimator)
-
求统计量PDF/PMF的一个技巧:计算其MGF
如:\(Y=\sum a_iX_i\),则\(M_Y(t)=\prod M_{X_i}(a_it)\)
- 推论1:当\(X_1\cdots X_n\)是自由度为\(r_1\cdots r_n\)的卡方分布时,\(Y=\sum X_i\sim\chi^2(\sum r_i)\)。证明采用计算MGF的方法
- 推论2:当\(Z_1\cdots Z_n\sim N(0,1)\)时,\(W=\sum Z^2_i\sim\chi^2(n)\)。证明:\(X\sim N(\mu,\sigma^2)\Rightarrow \frac{(X-\mu)^2}{\sigma^2}\sim\chi^2(1)\Rightarrow Z^2_i\sim\chi^2(1)\)
-
与正态分布随机变量相关的统计量
若\(X_1\cdots X_n\)是正态分布的随机变量,则\(Y=\sum a_iX_i\sim N(\sum a_i\mu_i,\sum a^2_i\sigma^2_i)\)
推论:\(X_1\cdots X_n\sim N(\mu,\sigma^2)\Rightarrow\overline X\sim N(\mu,\frac{\sigma^2}{n})\Rightarrow\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)\)
-
Sample Variance 样本方差
\(S^2=\frac1{n-1}\sum(X_i-\overline X)^2\),是实际方差\(\sigma^2\)的一个估计量
用\(n-1\)是因为用\(n\)的话,会倾向于比实际方差更小
-
\(E(S^2)=\sigma^2\),证明关键步骤:
\(\sum(X_i-\mu)^2=\sum(X_i-\overline X)^2+\sum(X_i-\overline X)(\overline X-\mu)+\sum(\overline X-\mu)^2=\sum(X_i-\overline X)^2+\sum(\overline X-\mu)^2\)
\((n-1)S^2=\sum(X_i-\overline X)^2=\sum(X_i-\overline X)^2+\sum(\overline X-\mu)^2-\sum(\overline X-\mu)^2=\sum(X_i-\mu)^2-\sum(\overline X-\mu)^2\)
\(E((n-1)S^2)=E(\sum(X_i-\mu)^2)-E(\sum(\overline X-\mu)^2)=n\sigma^2-n\cdot\frac{\sigma^2}{n}=(n-1)\sigma^2\)
-
令\(X_1\cdots X_n\sim N(\mu,\sigma^2)\),则\(\overline X,S^2\)独立,且\(\frac{(n-1)S^2}{\sigma^2}=\sum(\frac{X_i-\overline X}{\sigma})^2\sim \chi^2(n-1)\)
后者证明:\(\frac{n-1}{\sigma^2}S^2=\sum(\frac{X_i-\mu}{\sigma})^2-\sum(\frac{\overline X-\mu}{\sigma})^2\),该式子中两项的分布分别符合\(\chi^2(n)\)和\(\chi^2(1)\)
-
-
Student's t Distribution
\(T=\frac Z{\sqrt{U/r}},Z\sim N(0,1),U\sim\chi^2(r)\)
\(f(t)=\frac{\Gamma(\frac{r+1}{2})}{\sqrt{\pi r}\Gamma(\frac r2)}\frac1{(1+\frac{t^2}{r})^{\frac{r+1}{2}}},t\in\mathbb R\),写作\(T\sim t(r)\)
这种分布的图像类似正态分布,但更扁一些
若令\(Z=\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1),U=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\),则\(T=\frac{Z}{\sqrt{U/(n-1)}}=\frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)\)
-
-
Central Limit Theorem 中心极限定理
若\(\forall i,E(X_i)=\mu,Var(X_i)=\sigma^2\),则\(n\to\infty\)时,\(\overline X\sim N(\mu,\frac{\sigma^2}{n})\Rightarrow\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)\)
-
用连续分布(正态分布)拟合一堆离散分布变量的和
- 离散随机变量的和:定义 \(Y = \sum_{i=1}^n X_i\),其中\(X_i\)是独立同分布的离散随机变量,具有均值 \(\mu\) 和方差 \(\sigma^2\)
- 根据中心极限定理,当\(n\)足够大时,离散和\(Y\)的分布可以被近似为连续的正态分布\(N(n\mu, n\sigma^2)\)
- 半单位修正:为了用连续的正态分布更好地近似离散随机变量\(Y\)在某个点 \(k\) 的概率 \(P(Y=k)\),采用半单位修正:\[P(Y=k) \approx P\left(k - \frac{1}{2} < Y < k + \frac{1}{2}\right) \]其中右侧的概率是针对近似的正态分布计算的。
例:
二项分布\(Y\sim b(n,p)\)
根据中心极限定理,\(n\to\infty\Rightarrow\frac{Y/n-p}{\sqrt{p(1-p)/n}}\sim N(0,1)\Rightarrow \frac{Y-np}{\sqrt{np(1-p)}}\sim N(0,1)\)
\(P(Y=k)\approx P(k-\frac12<Y<k+\frac12)=P(\frac{k-\frac12-np}{\sqrt{np(1-p)}}<\frac{Y-np}{\sqrt{np(1-p)}}<\frac{k+\frac12-np}{\sqrt{np(1-p)}})\)
-
Chebyshev’s Inequality 切比雪夫不等式
对于随机变量\(X\),\(P(|X-\mu|\geq k\sigma)\leq \frac1{k^2}\)
证明:令\(A=\{x\ s.t.\ |x-\mu|\geq k\sigma\}\),则\(\sigma^2=\sum_{x\in A}(x-\mu)^2f(x)+\sum_{x\in A'}(x-\mu)^2f(x)\);于是有\(\sigma^2\geq \sum_{x\in A}(x-\mu)^2f(x)\geq k^2\sigma^2\sum_{x\in A}f(x)=k^2\sigma^2P(x\in A)\)
推论:\(P(|X-\mu|\geq\epsilon)\leq \frac{\sigma^2}{\epsilon^2}\)
-
Law of Large Numbers
令\(X_1,X_2\cdots\)为同一分布的独立样本,则\(\forall\epsilon>0,lim_{n\to\infty}P(|\overline X-\mu|\geq\epsilon)=0\)
-
由随机变量构成的序列的收敛性
-
两种不同的收敛方式
-
依分布收敛(Convergence in Distribution)
若\(\forall z ,lim_{n\to\infty}F_n(z)=F_Z(z)\),其中\(F_Z\)是随机变量\(Z\)的CDF,则随机变量序列\(Z_1,Z_2\cdots\)依分布收敛到\(Z\),写作\(Z_n\xrightarrow DZ\)
-
依概率收敛(Convergence in Probability)
若\(\forall\epsilon>0,lim_{n\to\infty}P(|Z_n-Z|\geq\epsilon)=0\),则随机变量序列\(Z_1,Z_2\cdots\)依概率收敛到\(Z\),写作\(Z_n\xrightarrow PZ\)
-
-
Limiting MGF Technique:一种判断是否依分布收敛的方法,该方法可用于证明中心极限定理(?)
若\(lim_{n\to\infty}M_n(t)=M_Z(t)\),则\(Z_n\xrightarrow DZ\)
因此\(b(n,p)\)有两种近似方法,一种是上面描述的用正态分布拟合;一种是用这种技巧计算发现近似于\(Poisson(\lambda=np)\)
-