香港中文大学(深圳) STA2001 - Probability and Statistics I 笔记

笔记包括2025年暑期学期该课程的内容
一部分较基础的知识在DDA2001中已经涉及,因此这里没有重复

  • 一些基础概念

    • Sample Space 样本空间:一个随机试验(Random Experiment)的所有可能结果的集合
    • Event 事件:一个样本空间的一个子集
    • 若干集合\(A_1,A_2\cdots A_k\)之间的关系
      • Mutually Exclusive 互斥的\(\Leftrightarrow \forall i \neq j,A_i\cap A_j=\emptyset\)
      • Exhaustive 穷尽的,并集为全集
  • 两种抽样方式

    • Ordered Sample:选择r个样本,并记录选择的顺序
    • Unordered Sample:选择r个样本,不关心选择的顺序
      抽样中涉及的一个记号:\(_nP_r=\frac{n!}{(n-r)!}\)
  • 条件概率公式:\(P(R|E)=\frac{P(R\cap E)}{P(E)}\)

  • Independent Events 独立事件:若\(P(A\cap B)=P(A)P(B)\),则\(A,B\)独立
    \(A,B,C\)两两独立,且\(P(A\cap B\cap C)=P(A)P(B)P(C)\),则\(A,B,C\)相互独立(Mutually Independent);可以扩展到三个以上的事件(即任意非空子集内的事件都满足这个等式)

  • Random Variable 随机变量:令\(S\)为一个样本空间,\(T\)为一个实数集,映射\(X: S\to T\)是一个随机变量。随机变量(也就是这个函数本身)一般用大写字母表示,它取的值一般用小写字母表示

  • 图形化表示PMF的两种方式:线图(Line Graph)和直方图(Probability Histogram)

    若是连续随机变量,可以把样本空间分成若干段,每一段当成一个事件

  • \(Var(X)=E(X^2)-(E(X))^2\)

  • \(r\)阶矩(Moment):
    计算 \(X\)\(r\) 次方的均值,即 \(E[X^r] = \sum_{x \in S} x^r f(x)\)

    \(r\)阶中心矩(\(r\) th moment of \(X\) about \(b\)):
    计算 \((X - b)\)\(r\) 次方的均值,即 \(E[(X - b)^r] = \sum_{x \in S} (x - b)^r f(x)\)

    \(r\)阶阶乘矩(\(r\) th factorial moment):
    计算 \(X\) 乘以 \((X-1)\) 乘以 \((X-2)\) ... 直到 \((X-r+1)\) 的均值,即 \(E[(X)_r] = E[X(X-1)\cdots(X-r+1)]\)

  • Moment Generating Function 矩生成函数

    \(E(e^{tX})=\sum_{x\in\overline S} e^{tx}f(x)\)在一个包含0的开区间内存在(也就是收敛),则\(M(t)=E(e^{tX})\)是随机变量\(X\)的一个矩生成函数

    矩生成函数的性质:

    • \(M(0)=1,M'(0)=E(X),M''(0)=E(X^2)\)
    • 若两个随机变量的矩生成函数相同,它们的PMF/PDF就相同
    • 理论上不可能出现一个离散随机变量和一个连续随机变量的MGF相同的情况

    典型的矩生成函数形式:

    • \(M(t)=(pe^t+(1-p))^n\):二项分布
    • \(M(t)=\frac{pe^t}{1-(1-p)e^t}\):几何分布(随机变量定义为"到第一次成功为止的总试验次数")
    • 更多的见下面的常见随机分布
  • 常见离散随机分布

    • Bernoulli Distribution 伯努利分布:一次试验

    • Binomial Distribution 二项分布:做一定次数的试验,看成功的次数

      \(E(X)=np,\ Var(X)=np(1-p),E(X(X-1))=n(n-1)p^2,M(t)=[(1-p)+pe^t]^n\)

    • Negative Binomial Distribution 负二项分布:刚好观察到\(r\)次成功的期望试验次数

      负二项分布的PMF为:\(f(x) = \binom{x-1}{r-1} p^r (1-p)^{x-r}\),其中 \(x = r, r+1, \ldots\)

      \(E(X)=\frac rp,Var(X)=\frac{r(1-p)}{p^2},M(t)=\frac{(pe^t)^r}{[1-(1-p)e^t]^r}\)

    • Geometric Distribution 几何分布:\(r=1\)的负二项分布,是负二项分布的一个特例

      \(E(X)=\frac 1p,\ Var(X)=\frac{1-p}{p^2},M(t)=\frac{pe^t}{1-(1-p)e^t}\)

    • Uniform Distribution (Discrete, 即在\([a,b]\)内的整数中随机取):\(\forall x,y\in\overline S,f(x)=f(y)\)

      \(E(X)=\frac{a+b}2,Var(X)=\frac{(b-a+1)^2-1}{12}\)

    • Poisson Distribution 泊松分布

      • Approximate Poisson Process 近似泊松过程:满足以下条件的情况
        1. 事件在不重叠的时间段内发生互不影响
        2. 极短时间内,事件发生一次的概率与时间长度成正比
        3. 极短时间内,不可能发生两次或以上事件

      \(\lambda\)为单位时间内发生一件事的平均次数,令单位时间内实际发生次数为\(X\),则泊松分布PMF为

      \(f(k)=P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}\)

      若一个随机变量的分布符合以上形式,可以直接判断其就是泊松分布。

      \(E(X)=Var(X)=\lambda,M(t)=e^{\lambda(e^t-1)}\)

  • 常见连续随机分布

    • Uniform Distribution (Continuous)

      标准定义下,其在边界点上的PDF不为0

      \(E(x)=\frac{a+b}2,Var(X)=\frac{(b-a)^2}{12}\)

    • Exponential Distribution 指数分布:一个近似泊松过程中,第一次事件发生前等待的时间

      推导过程:

      在时间\([0,w]\)内没有事件发生的概率是\(e^{-\lambda w}\),因此CDF \(F(w)=1-e^{-\lambda w}\),求导得到:

      PDF \(f(w)=\lambda e^{-\lambda w}\),标准形式为\(f(x)=\frac1\theta e^{-\frac x\theta}(\theta=\frac1\lambda)\)

      \(E(X)=\theta=\frac1\lambda,Var(X)=\theta^2=\frac1{\lambda^2},M(t)=\frac1{1-t\theta}\)

    • Gamma Distribution 伽马分布:一个近似泊松过程中,第\(\alpha\)次事件发生前等待的时间

      \(F(w)=1-\sum_{k=0}^{\alpha-1}\frac{(\lambda w)^ke^{-\lambda w}}{k!}\)

      \(f(w)=F'(w)=\frac{\lambda^\alpha w^{\alpha-1}}{(\alpha-1)!}e^{-\lambda w}\)

      \(E(X)=\alpha\theta=\frac\alpha\lambda,Var(X)=\alpha\theta^2=\frac\alpha{\lambda^2},M(t)=\frac1{(1-t\theta)^\alpha}\)

      通过定义一般化的阶乘函数Gamma函数\(\Gamma(t)=\int_0^\infty y^{t-1}e^{-y}dy\),可以把Gamma分布扩展到\(\alpha\)不是正整数的情况

    • Chi-square Distribution 卡方分布:自由度为整数\(r\)的卡方分布是\(\alpha=\frac r2,\lambda=\frac12\)的Gamma分布

      \(f(x)=\frac{(\frac12)^{\frac r2}x^{\frac r2-1}}{\Gamma(\frac r2)}e^{-\frac x2}\)

      \(E(X)=r,Var(X)=2r,M(t)=(1-2t)^{-\frac r2}\)

    • Normal Distribution 正态分布

      \(f(x)=\frac1{\sqrt{2\pi\sigma^2}}exp(-\frac12\cdot \frac{(x-\mu)^2}{\sigma^2})\),其中\(\mu\)是均值,\(\sigma^2\)是方差,\(X\sim N(\mu,\sigma^2)\)

      \(M(t)=exp(\mu t+\frac12\sigma^2t^2)\)

      在标准正态分布(\(\mu=0,\sigma=1\))中,\(z_\alpha\)是一个满足\(P(Z\geq z_\alpha)=\alpha\)的值

      正态分布和卡方分布的关系:\(X\sim N(\mu,\sigma^2)\),则\(\frac{(X-\mu)^2}{\sigma^2}\sim \chi^2(1)\)

  • 百分位数的表示:可以用\(\pi_p\)的形式来表示百分位数,如\(\pi_{0.25}\)表示第25百分位数

  • Bivariate/Multivariate Distribution 二元/多元分布:结果是两个标量的分布,根据结果是否能与自然数一一对应分为Discrete和Continuous两种

    • 离散类型

      • Joint PMF: \(f(x,y)\)表示\(\{x,y\}\)发生的概率

      • Marginal PMF: 边际概率质量函数,即其中一个随机变量等于某个值的概率,\(f_X(x)=P(X=x)\)

      • Trinomial Distribution 三项分布:一种与二元分布相关的离散随机分布

        简单来说就是每次试验有三种互斥且穷尽的结果,做\(n\)次试验,看每种结果出现的次数。和二项分布挺像的,毕竟名字都差不多

      • Independent Discrete Random Variables 独立离散随机变量:\(\forall x\ y,f(x,y)=f_X(x)f_Y(y)\)

        \(X,Y\)独立时,它们的二元分布的样本空间\(\overline S\)被称为是Rectangular的

      • Conditional PMF: \(g(x|y)=\frac{f(x,y)}{f_Y(y)}\)

        \(X,Y\)独立,则\(g(x|y)=f_X(x)\)

    • 连续类型

      为了方便,经常把这种类型的样本空间扩展到\(\mathbb R\times\mathbb R\)

      • Joint PDF:类似Joint PMF

      • Marginal PDF:类似Marginal PMF,\(f_X(x)=\int_{\overline{S_Y(x)}}f(x,y)dy\)

      • Independent Continuous Random Variables 独立连续随机变量:\(\forall x\ y,f(x,y)=f_X(x)f_Y(y)\)

        \(X,Y\)独立时,它们的二元分布的样本空间\(\overline S\)被称为是Rectangular的

      • Conditional PDF: \(g(x|y)=\frac{f(x,y)}{f_Y(y)}\)

    • 多于两个随机变量的情况

      \(f(x_1\cdots x_n)=\prod f_{X_i}(x_i)\)时,称这些随机变量相互(mutually)独立。一个必要条件是\(\overline S=\prod \overline{S_{X_i}}\)

      • Random Sample of Size \(n\) From a Common Distribution:

        \(n\)个独立的、同分布的随机变量。此时它们满足\(f(x_1\cdots x_n)=\prod f_{X_i}(x_i)\)

      • \(X_1\cdots X_n\)独立,则\(E(\prod u_i(X_i))=\prod E(u_i(X_i))\)

      • \(X_1\cdots X_n\)独立,令\(Y=\sum a_iX_i\),则\(E(Y)=\sum a_i\mu_i,Var(Y)=\sum a^2_i\sigma^2_i\)

      • 以上两条在\(X_1\cdots X_n\)不同分布的情况下也适用

    • Covariance 协方差:

      \(Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)\)

      • 协方差和两变量关联的关系:

        • \(=0\),不相关

        • \(>0\),正相关

        • \(<0\),负相关

      • \(X,Y\)独立\(\Rightarrow Cov(X,Y)=0\)但反之不成立

      • \(Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\)

    • Correlation Coefficient 相关系数:对于两个方差不为0的变量,\(\rho(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}\)

      \(\rho(X,Y)\in[-1,1]\)

      \(\rho(X,Y)=1\Leftrightarrow \exist c\ s.t.\ Y-E(Y)=c(X-E(X))\)

    • Bivariate Normal Distribution 二元正态分布:

      PDF \(f(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}}\exp\left[-\frac{1}{2}q(x,y)\right]\),其中\(q(x,y) = \frac{1}{1-\rho^2}\left[\left(\frac{x-\mu_X}{\sigma_X}\right)^2 - 2\rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\mu_Y}{\sigma_Y}\right) + \left(\frac{y-\mu_Y}{\sigma_Y}\right)^2\right],|\rho|<1\)

      • 性质:

        \(X\sim N(\mu_X,\sigma^2_X),Y\sim N(\mu_Y,\sigma^2_Y)\)

        \(Y=y\)\(X\sim N(\mu_X+\frac{\sigma_X}{\sigma_Y}\rho(y-\mu_Y),(1-\rho^2)\sigma^2_X)\)\(X=x\)\(Y\sim N(\mu_Y+\frac{\sigma_Y}{\sigma_X}\rho(x-\mu_X),(1-\rho^2)\sigma^2_Y)\)

  • Function of One Random Variable 包含一个随机变量的函数

    • \(X\)离散:

      \(Y=u(X)\),则PMF/PDF \(g(y)=P(u(X)=y)=P(X=v(y))\),真正计算\(Y\)的PMF/PDF的时候也是用这个等式

    • \(X\)连续,令\(c\)\(u(x)\)下界:

      • \(Y=u(X)\)连续且递增,有反函数\(X=v(Y)\),则\(G(y)=\int_c^{v(y)}f(x)dx\)
      • \(Y=u(X)\)连续且递减,有反函数\(X=v(Y)\),则\(G(y)=1-\int_c^{v(y)}f(x)dx\)
  • Inverse Transform Sampling 逆变换采样定理

    \(Y\sim U(0,1)\)\(F(x)\)为一个连续RV的CDF,则\(X=F^{-1}(Y)\)是一个具有CDF \(F(x)\)的RV

    证明:\(P(X\leq x)=P(F^{-1}(Y)\leq x)=P(Y\leq F(x))=F(x)\)

  • 概率积分变换

    \(X\)\(\overline{S_X}=(a,b)\)的连续随机变量,且CDF \(F(x)\)递增,则\(Y=F(X)\sim U(0,1)\)

    证明:\(P(Y\leq y)=P(F(X)\leq y)=P(X\leq F^{-1}(y))=F(F^{-1}(y))=y\)

  • Statistic 统计量

    一个关于随机样本\(X_1\cdots X_n\)且不包含任何其它未知数的函数,称为统计量(Statistic)

    例:样本均值(Sample Mean)\(\overline X=\frac1n\sum X_i\)。样本均值是一个统计量,同时也是分布的均值\(\mu\)的一个估计量(Estimator)

    • 求统计量PDF/PMF的一个技巧:计算其MGF

      如:\(Y=\sum a_iX_i\),则\(M_Y(t)=\prod M_{X_i}(a_it)\)

      • 推论1:当\(X_1\cdots X_n\)是自由度为\(r_1\cdots r_n\)的卡方分布时,\(Y=\sum X_i\sim\chi^2(\sum r_i)\)。证明采用计算MGF的方法
      • 推论2:当\(Z_1\cdots Z_n\sim N(0,1)\)时,\(W=\sum Z^2_i\sim\chi^2(n)\)。证明:\(X\sim N(\mu,\sigma^2)\Rightarrow \frac{(X-\mu)^2}{\sigma^2}\sim\chi^2(1)\Rightarrow Z^2_i\sim\chi^2(1)\)
    • 与正态分布随机变量相关的统计量

      \(X_1\cdots X_n\)是正态分布的随机变量,则\(Y=\sum a_iX_i\sim N(\sum a_i\mu_i,\sum a^2_i\sigma^2_i)\)

      推论:\(X_1\cdots X_n\sim N(\mu,\sigma^2)\Rightarrow\overline X\sim N(\mu,\frac{\sigma^2}{n})\Rightarrow\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)\)

    • Sample Variance 样本方差

      \(S^2=\frac1{n-1}\sum(X_i-\overline X)^2\),是实际方差\(\sigma^2\)的一个估计量

      \(n-1\)是因为用\(n\)的话,会倾向于比实际方差更小

      • \(E(S^2)=\sigma^2\),证明关键步骤:

        \(\sum(X_i-\mu)^2=\sum(X_i-\overline X)^2+\sum(X_i-\overline X)(\overline X-\mu)+\sum(\overline X-\mu)^2=\sum(X_i-\overline X)^2+\sum(\overline X-\mu)^2\)

        \((n-1)S^2=\sum(X_i-\overline X)^2=\sum(X_i-\overline X)^2+\sum(\overline X-\mu)^2-\sum(\overline X-\mu)^2=\sum(X_i-\mu)^2-\sum(\overline X-\mu)^2\)

        \(E((n-1)S^2)=E(\sum(X_i-\mu)^2)-E(\sum(\overline X-\mu)^2)=n\sigma^2-n\cdot\frac{\sigma^2}{n}=(n-1)\sigma^2\)

      • \(X_1\cdots X_n\sim N(\mu,\sigma^2)\),则\(\overline X,S^2\)独立,且\(\frac{(n-1)S^2}{\sigma^2}=\sum(\frac{X_i-\overline X}{\sigma})^2\sim \chi^2(n-1)\)

        后者证明:\(\frac{n-1}{\sigma^2}S^2=\sum(\frac{X_i-\mu}{\sigma})^2-\sum(\frac{\overline X-\mu}{\sigma})^2\),该式子中两项的分布分别符合\(\chi^2(n)\)\(\chi^2(1)\)

    • Student's t Distribution

      \(T=\frac Z{\sqrt{U/r}},Z\sim N(0,1),U\sim\chi^2(r)\)

      \(f(t)=\frac{\Gamma(\frac{r+1}{2})}{\sqrt{\pi r}\Gamma(\frac r2)}\frac1{(1+\frac{t^2}{r})^{\frac{r+1}{2}}},t\in\mathbb R\),写作\(T\sim t(r)\)

      这种分布的图像类似正态分布,但更扁一些

      若令\(Z=\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1),U=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\),则\(T=\frac{Z}{\sqrt{U/(n-1)}}=\frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)\)

  • Central Limit Theorem 中心极限定理

    \(\forall i,E(X_i)=\mu,Var(X_i)=\sigma^2\),则\(n\to\infty\)时,\(\overline X\sim N(\mu,\frac{\sigma^2}{n})\Rightarrow\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)\)

  • 用连续分布(正态分布)拟合一堆离散分布变量的和

    • 离散随机变量的和:定义 \(Y = \sum_{i=1}^n X_i\),其中\(X_i\)是独立同分布的离散随机变量,具有均值 \(\mu\) 和方差 \(\sigma^2\)
    • 根据中心极限定理,当\(n\)足够大时,离散和\(Y\)的分布可以被近似为连续的正态分布\(N(n\mu, n\sigma^2)\)
    • 半单位修正:为了用连续的正态分布更好地近似离散随机变量\(Y\)在某个点 \(k\) 的概率 \(P(Y=k)\),采用半单位修正:

      \[P(Y=k) \approx P\left(k - \frac{1}{2} < Y < k + \frac{1}{2}\right) \]

      其中右侧的概率是针对近似的正态分布计算的。

    例:

    二项分布\(Y\sim b(n,p)\)

    根据中心极限定理,\(n\to\infty\Rightarrow\frac{Y/n-p}{\sqrt{p(1-p)/n}}\sim N(0,1)\Rightarrow \frac{Y-np}{\sqrt{np(1-p)}}\sim N(0,1)\)

    \(P(Y=k)\approx P(k-\frac12<Y<k+\frac12)=P(\frac{k-\frac12-np}{\sqrt{np(1-p)}}<\frac{Y-np}{\sqrt{np(1-p)}}<\frac{k+\frac12-np}{\sqrt{np(1-p)}})\)

  • Chebyshev’s Inequality 切比雪夫不等式

    对于随机变量\(X\)\(P(|X-\mu|\geq k\sigma)\leq \frac1{k^2}\)

    证明:令\(A=\{x\ s.t.\ |x-\mu|\geq k\sigma\}\),则\(\sigma^2=\sum_{x\in A}(x-\mu)^2f(x)+\sum_{x\in A'}(x-\mu)^2f(x)\);于是有\(\sigma^2\geq \sum_{x\in A}(x-\mu)^2f(x)\geq k^2\sigma^2\sum_{x\in A}f(x)=k^2\sigma^2P(x\in A)\)

    推论:\(P(|X-\mu|\geq\epsilon)\leq \frac{\sigma^2}{\epsilon^2}\)

  • Law of Large Numbers

    \(X_1,X_2\cdots\)为同一分布的独立样本,则\(\forall\epsilon>0,lim_{n\to\infty}P(|\overline X-\mu|\geq\epsilon)=0\)

  • 由随机变量构成的序列的收敛性

    • 两种不同的收敛方式

      • 依分布收敛(Convergence in Distribution)

        \(\forall z ,lim_{n\to\infty}F_n(z)=F_Z(z)\),其中\(F_Z\)是随机变量\(Z\)的CDF,则随机变量序列\(Z_1,Z_2\cdots\)依分布收敛到\(Z\),写作\(Z_n\xrightarrow DZ\)

      • 依概率收敛(Convergence in Probability)

        \(\forall\epsilon>0,lim_{n\to\infty}P(|Z_n-Z|\geq\epsilon)=0\)​,则随机变量序列\(Z_1,Z_2\cdots\)依概率收敛到\(Z\),写作\(Z_n\xrightarrow PZ\)

    • Limiting MGF Technique:一种判断是否依分布收敛的方法,该方法可用于证明中心极限定理(?)

      \(lim_{n\to\infty}M_n(t)=M_Z(t)\),则\(Z_n\xrightarrow DZ\)

      因此\(b(n,p)\)有两种近似方法,一种是上面描述的用正态分布拟合;一种是用这种技巧计算发现近似于\(Poisson(\lambda=np)\)

posted @ 2025-07-20 18:57  LegendStane  阅读(75)  评论(0)    收藏  举报