香港中文大学(深圳) STA2001 - Probability and Statistics I 笔记

笔记包括2025年暑期学期该课程的内容
一部分较基础的知识在DDA2001中已经涉及，因此这里没有重复

一些基础概念
- Sample Space 样本空间：一个随机试验(Random Experiment)的所有可能结果的集合
- Event 事件：一个样本空间的一个子集
- 若干集合\(A_1,A_2\cdots A_k\)之间的关系
  - Mutually Exclusive 互斥的\(\Leftrightarrow \forall i \neq j,A_i\cap A_j=\emptyset\)
  - Exhaustive 穷尽的，并集为全集
两种抽样方式
- Ordered Sample：选择r个样本，并记录选择的顺序
- Unordered Sample：选择r个样本，不关心选择的顺序
  抽样中涉及的一个记号：\(_nP_r=\frac{n!}{(n-r)!}\)
条件概率公式：\(P(R|E)=\frac{P(R\cap E)}{P(E)}\)
Independent Events 独立事件：若\(P(A\cap B)=P(A)P(B)\)，则\(A,B\)独立
若\(A,B,C\)两两独立，且\(P(A\cap B\cap C)=P(A)P(B)P(C)\)，则\(A,B,C\)相互独立(Mutually Independent)；可以扩展到三个以上的事件(即任意非空子集内的事件都满足这个等式)
Random Variable 随机变量：令\(S\)为一个样本空间，\(T\)为一个实数集，映射\(X: S\to T\)是一个随机变量。随机变量(也就是这个函数本身)一般用大写字母表示，它取的值一般用小写字母表示
图形化表示PMF的两种方式：线图(Line Graph)和直方图(Probability Histogram)

若是连续随机变量，可以把样本空间分成若干段，每一段当成一个事件
\(Var(X)=E(X^2)-(E(X))^2\)
\(r\)阶矩(Moment):
计算 \(X\) 的 \(r\) 次方的均值，即 \(E[X^r] = \sum_{x \in S} x^r f(x)\)

\(r\)阶中心矩(\(r\) th moment of \(X\) about \(b\)):
计算 \((X - b)\) 的 \(r\) 次方的均值，即 \(E[(X - b)^r] = \sum_{x \in S} (x - b)^r f(x)\)

\(r\)阶阶乘矩(\(r\) th factorial moment):
计算 \(X\) 乘以 \((X-1)\) 乘以 \((X-2)\) ... 直到 \((X-r+1)\) 的均值，即 \(E[(X)_r] = E[X(X-1)\cdots(X-r+1)]\)
Moment Generating Function 矩生成函数

若\(E(e^{tX})=\sum_{x\in\overline S} e^{tx}f(x)\)在一个包含0的开区间内存在(也就是收敛)，则\(M(t)=E(e^{tX})\)是随机变量\(X\)的一个矩生成函数

矩生成函数的性质：
- \(M(0)=1,M'(0)=E(X),M''(0)=E(X^2)\)
- 若两个随机变量的矩生成函数相同，它们的PMF/PDF就相同
- 理论上不可能出现一个离散随机变量和一个连续随机变量的MGF相同的情况
典型的矩生成函数形式：
- \(M(t)=(pe^t+(1-p))^n\)：二项分布
- \(M(t)=\frac{pe^t}{1-(1-p)e^t}\)：几何分布(随机变量定义为"到第一次成功为止的总试验次数")
- 更多的见下面的常见随机分布
常见离散随机分布
- Bernoulli Distribution 伯努利分布：一次试验
- Binomial Distribution 二项分布：做一定次数的试验，看成功的次数
  
  \(E(X)=np,\ Var(X)=np(1-p),E(X(X-1))=n(n-1)p^2,M(t)=[(1-p)+pe^t]^n\)
- Negative Binomial Distribution 负二项分布：刚好观察到\(r\)次成功的期望试验次数
  
  负二项分布的PMF为：\(f(x) = \binom{x-1}{r-1} p^r (1-p)^{x-r}\)，其中 \(x = r, r+1, \ldots\)。
  
  \(E(X)=\frac rp,Var(X)=\frac{r(1-p)}{p^2},M(t)=\frac{(pe^t)^r}{[1-(1-p)e^t]^r}\)
- Geometric Distribution 几何分布：\(r=1\)的负二项分布，是负二项分布的一个特例
  
  \(E(X)=\frac 1p,\ Var(X)=\frac{1-p}{p^2},M(t)=\frac{pe^t}{1-(1-p)e^t}\)
- Uniform Distribution (Discrete, 即在\([a,b]\)内的整数中随机取)：\(\forall x,y\in\overline S,f(x)=f(y)\)
  
  \(E(X)=\frac{a+b}2,Var(X)=\frac{(b-a+1)^2-1}{12}\)
- Poisson Distribution 泊松分布
  - Approximate Poisson Process 近似泊松过程：满足以下条件的情况
    1. 事件在不重叠的时间段内发生互不影响
    2. 极短时间内，事件发生一次的概率与时间长度成正比
    3. 极短时间内，不可能发生两次或以上事件
  令\(\lambda\)为单位时间内发生一件事的平均次数，令单位时间内实际发生次数为\(X\)，则泊松分布PMF为
  
  \(f(k)=P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}\)
  
  若一个随机变量的分布符合以上形式，可以直接判断其就是泊松分布。
  
  \(E(X)=Var(X)=\lambda,M(t)=e^{\lambda(e^t-1)}\)
常见连续随机分布
- Uniform Distribution (Continuous)
  
  标准定义下，其在边界点上的PDF不为0
  
  \(E(x)=\frac{a+b}2,Var(X)=\frac{(b-a)^2}{12}\)
- Exponential Distribution 指数分布：一个近似泊松过程中，第一次事件发生前等待的时间
  
  推导过程：
  
  在时间\([0,w]\)内没有事件发生的概率是\(e^{-\lambda w}\)，因此CDF \(F(w)=1-e^{-\lambda w}\)，求导得到：
  
  PDF \(f(w)=\lambda e^{-\lambda w}\)，标准形式为\(f(x)=\frac1\theta e^{-\frac x\theta}(\theta=\frac1\lambda)\)
  
  \(E(X)=\theta=\frac1\lambda,Var(X)=\theta^2=\frac1{\lambda^2},M(t)=\frac1{1-t\theta}\)
- Gamma Distribution 伽马分布：一个近似泊松过程中，第\(\alpha\)次事件发生前等待的时间
  
  \(F(w)=1-\sum_{k=0}^{\alpha-1}\frac{(\lambda w)^ke^{-\lambda w}}{k!}\)
  
  \(f(w)=F'(w)=\frac{\lambda^\alpha w^{\alpha-1}}{(\alpha-1)!}e^{-\lambda w}\)
  
  \(E(X)=\alpha\theta=\frac\alpha\lambda,Var(X)=\alpha\theta^2=\frac\alpha{\lambda^2},M(t)=\frac1{(1-t\theta)^\alpha}\)
  
  通过定义一般化的阶乘函数Gamma函数\(\Gamma(t)=\int_0^\infty y^{t-1}e^{-y}dy\)，可以把Gamma分布扩展到\(\alpha\)不是正整数的情况
- Chi-square Distribution 卡方分布：自由度为整数\(r\)的卡方分布是\(\alpha=\frac r2,\lambda=\frac12\)的Gamma分布
  
  \(f(x)=\frac{(\frac12)^{\frac r2}x^{\frac r2-1}}{\Gamma(\frac r2)}e^{-\frac x2}\)
  
  \(E(X)=r,Var(X)=2r,M(t)=(1-2t)^{-\frac r2}\)
- Normal Distribution 正态分布
  
  \(f(x)=\frac1{\sqrt{2\pi\sigma^2}}exp(-\frac12\cdot \frac{(x-\mu)^2}{\sigma^2})\)，其中\(\mu\)是均值，\(\sigma^2\)是方差，\(X\sim N(\mu,\sigma^2)\)
  
  \(M(t)=exp(\mu t+\frac12\sigma^2t^2)\)
  
  在标准正态分布(\(\mu=0,\sigma=1\))中，\(z_\alpha\)是一个满足\(P(Z\geq z_\alpha)=\alpha\)的值
  
  正态分布和卡方分布的关系：\(X\sim N(\mu,\sigma^2)\)，则\(\frac{(X-\mu)^2}{\sigma^2}\sim \chi^2(1)\)
百分位数的表示：可以用\(\pi_p\)的形式来表示百分位数，如\(\pi_{0.25}\)表示第25百分位数
Bivariate/Multivariate Distribution 二元/多元分布：结果是两个标量的分布，根据结果是否能与自然数一一对应分为Discrete和Continuous两种
- 离散类型
  - Joint PMF: \(f(x,y)\)表示\(\{x,y\}\)发生的概率
  - Marginal PMF: 边际概率质量函数，即其中一个随机变量等于某个值的概率，\(f_X(x)=P(X=x)\)
  - Trinomial Distribution 三项分布：一种与二元分布相关的离散随机分布
    
    简单来说就是每次试验有三种互斥且穷尽的结果，做\(n\)次试验，看每种结果出现的次数。和二项分布挺像的，毕竟名字都差不多
  - Independent Discrete Random Variables 独立离散随机变量：\(\forall x\ y,f(x,y)=f_X(x)f_Y(y)\)
    
    当\(X,Y\)独立时，它们的二元分布的样本空间\(\overline S\)被称为是Rectangular的
  - Conditional PMF: \(g(x|y)=\frac{f(x,y)}{f_Y(y)}\)
    
    若\(X,Y\)独立，则\(g(x|y)=f_X(x)\)
- 连续类型
  
  为了方便，经常把这种类型的样本空间扩展到\(\mathbb R\times\mathbb R\)
  - Joint PDF：类似Joint PMF
  - Marginal PDF：类似Marginal PMF，\(f_X(x)=\int_{\overline{S_Y(x)}}f(x,y)dy\)
  - Independent Continuous Random Variables 独立连续随机变量：\(\forall x\ y,f(x,y)=f_X(x)f_Y(y)\)
    
    当\(X,Y\)独立时，它们的二元分布的样本空间\(\overline S\)被称为是Rectangular的
  - Conditional PDF: \(g(x|y)=\frac{f(x,y)}{f_Y(y)}\)
- 多于两个随机变量的情况
  
  当\(f(x_1\cdots x_n)=\prod f_{X_i}(x_i)\)时，称这些随机变量相互(mutually)独立。一个必要条件是\(\overline S=\prod \overline{S_{X_i}}\)
  - Random Sample of Size \(n\) From a Common Distribution:
    
    \(n\)个独立的、同分布的随机变量。此时它们满足\(f(x_1\cdots x_n)=\prod f_{X_i}(x_i)\)
  - 若\(X_1\cdots X_n\)独立，则\(E(\prod u_i(X_i))=\prod E(u_i(X_i))\)
  - 若\(X_1\cdots X_n\)独立，令\(Y=\sum a_iX_i\)，则\(E(Y)=\sum a_i\mu_i,Var(Y)=\sum a^2_i\sigma^2_i\)
  - 以上两条在\(X_1\cdots X_n\)不同分布的情况下也适用
- Covariance 协方差：
  
  \(Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)\)
  - 协方差和两变量关联的关系：
    - \(=0\)，不相关
    - \(>0\)，正相关
    - \(<0\)，负相关
  - \(X,Y\)独立\(\Rightarrow Cov(X,Y)=0\)，但反之不成立
  - \(Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\)
- Correlation Coefficient 相关系数：对于两个方差不为0的变量，\(\rho(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}\)
  
  \(\rho(X,Y)\in[-1,1]\)
  
  \(\rho(X,Y)=1\Leftrightarrow \exist c\ s.t.\ Y-E(Y)=c(X-E(X))\)
- Bivariate Normal Distribution 二元正态分布：
  
  PDF \(f(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}}\exp\left[-\frac{1}{2}q(x,y)\right]\)，其中\(q(x,y) = \frac{1}{1-\rho^2}\left[\left(\frac{x-\mu_X}{\sigma_X}\right)^2 - 2\rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\mu_Y}{\sigma_Y}\right) + \left(\frac{y-\mu_Y}{\sigma_Y}\right)^2\right],|\rho|<1\)
  - 性质：
    
    \(X\sim N(\mu_X,\sigma^2_X),Y\sim N(\mu_Y,\sigma^2_Y)\)
    
    \(Y=y\)时\(X\sim N(\mu_X+\frac{\sigma_X}{\sigma_Y}\rho(y-\mu_Y),(1-\rho^2)\sigma^2_X)\)；\(X=x\)时\(Y\sim N(\mu_Y+\frac{\sigma_Y}{\sigma_X}\rho(x-\mu_X),(1-\rho^2)\sigma^2_Y)\)
Function of One Random Variable 包含一个随机变量的函数
- \(X\)离散：
  
  令\(Y=u(X)\)，则PMF/PDF \(g(y)=P(u(X)=y)=P(X=v(y))\)，真正计算\(Y\)的PMF/PDF的时候也是用这个等式
- \(X\)连续，令\(c\)为\(u(x)\)下界：
  - \(Y=u(X)\)连续且递增，有反函数\(X=v(Y)\)，则\(G(y)=\int_c^{v(y)}f(x)dx\)
  - \(Y=u(X)\)连续且递减，有反函数\(X=v(Y)\)，则\(G(y)=1-\int_c^{v(y)}f(x)dx\)
Inverse Transform Sampling 逆变换采样定理

令\(Y\sim U(0,1)\)，\(F(x)\)为一个连续RV的CDF，则\(X=F^{-1}(Y)\)是一个具有CDF \(F(x)\)的RV

证明：\(P(X\leq x)=P(F^{-1}(Y)\leq x)=P(Y\leq F(x))=F(x)\)
概率积分变换

若\(X\)是\(\overline{S_X}=(a,b)\)的连续随机变量，且CDF \(F(x)\)递增，则\(Y=F(X)\sim U(0,1)\)

证明：\(P(Y\leq y)=P(F(X)\leq y)=P(X\leq F^{-1}(y))=F(F^{-1}(y))=y\)
Statistic 统计量

一个关于随机样本\(X_1\cdots X_n\)且不包含任何其它未知数的函数，称为统计量(Statistic)

例：样本均值(Sample Mean)\(\overline X=\frac1n\sum X_i\)。样本均值是一个统计量，同时也是分布的均值\(\mu\)的一个估计量(Estimator)
- 求统计量PDF/PMF的一个技巧：计算其MGF
  
  如：\(Y=\sum a_iX_i\)，则\(M_Y(t)=\prod M_{X_i}(a_it)\)
  - 推论1：当\(X_1\cdots X_n\)是自由度为\(r_1\cdots r_n\)的卡方分布时，\(Y=\sum X_i\sim\chi^2(\sum r_i)\)。证明采用计算MGF的方法
  - 推论2：当\(Z_1\cdots Z_n\sim N(0,1)\)时，\(W=\sum Z^2_i\sim\chi^2(n)\)。证明：\(X\sim N(\mu,\sigma^2)\Rightarrow \frac{(X-\mu)^2}{\sigma^2}\sim\chi^2(1)\Rightarrow Z^2_i\sim\chi^2(1)\)
- 与正态分布随机变量相关的统计量
  
  若\(X_1\cdots X_n\)是正态分布的随机变量，则\(Y=\sum a_iX_i\sim N(\sum a_i\mu_i,\sum a^2_i\sigma^2_i)\)
  
  推论：\(X_1\cdots X_n\sim N(\mu,\sigma^2)\Rightarrow\overline X\sim N(\mu,\frac{\sigma^2}{n})\Rightarrow\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)\)
- Sample Variance 样本方差
  
  \(S^2=\frac1{n-1}\sum(X_i-\overline X)^2\)，是实际方差\(\sigma^2\)的一个估计量
  
  用\(n-1\)是因为用\(n\)的话，会倾向于比实际方差更小
  - \(E(S^2)=\sigma^2\)，证明关键步骤：
    
    \(\sum(X_i-\mu)^2=\sum(X_i-\overline X)^2+\sum(X_i-\overline X)(\overline X-\mu)+\sum(\overline X-\mu)^2=\sum(X_i-\overline X)^2+\sum(\overline X-\mu)^2\)
    
    \((n-1)S^2=\sum(X_i-\overline X)^2=\sum(X_i-\overline X)^2+\sum(\overline X-\mu)^2-\sum(\overline X-\mu)^2=\sum(X_i-\mu)^2-\sum(\overline X-\mu)^2\)
    
    \(E((n-1)S^2)=E(\sum(X_i-\mu)^2)-E(\sum(\overline X-\mu)^2)=n\sigma^2-n\cdot\frac{\sigma^2}{n}=(n-1)\sigma^2\)
  - 令\(X_1\cdots X_n\sim N(\mu,\sigma^2)\)，则\(\overline X,S^2\)独立，且\(\frac{(n-1)S^2}{\sigma^2}=\sum(\frac{X_i-\overline X}{\sigma})^2\sim \chi^2(n-1)\)
    
    后者证明：\(\frac{n-1}{\sigma^2}S^2=\sum(\frac{X_i-\mu}{\sigma})^2-\sum(\frac{\overline X-\mu}{\sigma})^2\)，该式子中两项的分布分别符合\(\chi^2(n)\)和\(\chi^2(1)\)
- Student's t Distribution
  
  \(T=\frac Z{\sqrt{U/r}},Z\sim N(0,1),U\sim\chi^2(r)\)
  
  \(f(t)=\frac{\Gamma(\frac{r+1}{2})}{\sqrt{\pi r}\Gamma(\frac r2)}\frac1{(1+\frac{t^2}{r})^{\frac{r+1}{2}}},t\in\mathbb R\)，写作\(T\sim t(r)\)
  
  这种分布的图像类似正态分布，但更扁一些
  
  若令\(Z=\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1),U=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\)，则\(T=\frac{Z}{\sqrt{U/(n-1)}}=\frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)\)
Central Limit Theorem 中心极限定理

若\(\forall i,E(X_i)=\mu,Var(X_i)=\sigma^2\)，则\(n\to\infty\)时，\(\overline X\sim N(\mu,\frac{\sigma^2}{n})\Rightarrow\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)\)
用连续分布(正态分布)拟合一堆离散分布变量的和
- 离散随机变量的和：定义 \(Y = \sum_{i=1}^n X_i\)，其中\(X_i\)是独立同分布的离散随机变量，具有均值 \(\mu\) 和方差 \(\sigma^2\)
- 根据中心极限定理，当\(n\)足够大时，离散和\(Y\)的分布可以被近似为连续的正态分布\(N(n\mu, n\sigma^2)\)
- 半单位修正：为了用连续的正态分布更好地近似离散随机变量\(Y\)在某个点 \(k\) 的概率 \(P(Y=k)\)，采用半单位修正：
  \[P(Y=k) \approx P\left(k - \frac{1}{2} < Y < k + \frac{1}{2}\right) \]
  其中右侧的概率是针对近似的正态分布计算的。
例：

二项分布\(Y\sim b(n,p)\)

根据中心极限定理，\(n\to\infty\Rightarrow\frac{Y/n-p}{\sqrt{p(1-p)/n}}\sim N(0,1)\Rightarrow \frac{Y-np}{\sqrt{np(1-p)}}\sim N(0,1)\)

\(P(Y=k)\approx P(k-\frac12<Y<k+\frac12)=P(\frac{k-\frac12-np}{\sqrt{np(1-p)}}<\frac{Y-np}{\sqrt{np(1-p)}}<\frac{k+\frac12-np}{\sqrt{np(1-p)}})\)
Chebyshev’s Inequality 切比雪夫不等式

对于随机变量\(X\)，\(P(|X-\mu|\geq k\sigma)\leq \frac1{k^2}\)

证明：令\(A=\{x\ s.t.\ |x-\mu|\geq k\sigma\}\)，则\(\sigma^2=\sum_{x\in A}(x-\mu)^2f(x)+\sum_{x\in A'}(x-\mu)^2f(x)\)；于是有\(\sigma^2\geq \sum_{x\in A}(x-\mu)^2f(x)\geq k^2\sigma^2\sum_{x\in A}f(x)=k^2\sigma^2P(x\in A)\)

推论：\(P(|X-\mu|\geq\epsilon)\leq \frac{\sigma^2}{\epsilon^2}\)
Law of Large Numbers

令\(X_1,X_2\cdots\)为同一分布的独立样本，则\(\forall\epsilon>0,lim_{n\to\infty}P(|\overline X-\mu|\geq\epsilon)=0\)
由随机变量构成的序列的收敛性
- 两种不同的收敛方式
  - 依分布收敛(Convergence in Distribution)
    
    若\(\forall z ,lim_{n\to\infty}F_n(z)=F_Z(z)\)，其中\(F_Z\)是随机变量\(Z\)的CDF，则随机变量序列\(Z_1,Z_2\cdots\)依分布收敛到\(Z\)，写作\(Z_n\xrightarrow DZ\)
  - 依概率收敛(Convergence in Probability)
    
    若\(\forall\epsilon>0,lim_{n\to\infty}P(|Z_n-Z|\geq\epsilon)=0\)，则随机变量序列\(Z_1,Z_2\cdots\)依概率收敛到\(Z\)，写作\(Z_n\xrightarrow PZ\)
- Limiting MGF Technique：一种判断是否依分布收敛的方法，该方法可用于证明中心极限定理(?)
  
  若\(lim_{n\to\infty}M_n(t)=M_Z(t)\)，则\(Z_n\xrightarrow DZ\)
  
  因此\(b(n,p)\)有两种近似方法，一种是上面描述的用正态分布拟合；一种是用这种技巧计算发现近似于\(Poisson(\lambda=np)\)

posted @ 2025-07-20 18:57 LegendStane 阅读(75) 评论(0) 收藏举报

刷新页面返回顶部

LegendStane

"We choose to go to the Moon."

香港中文大学(深圳) STA2001 - Probability and Statistics I 笔记

公告