概统期中复习

第一章

概率的公理化

样本空间 \(S\),事件集合 \(F\)\(S\) 的一个子集族,满足 \(S\in F\)\(A\in F\to \overline A\in F\)\(A_i\in F\to \cup_{i}A_i\in F\)

概率是满足 \(P(S)=1\)(规范性)的测度,要求 \(P(A)\ge 0\)(非负性),\(A_iA_j=\varnothing \to P(\cup_i A_i)=\sum_i P(A_i)\)(可列可加性)。

\((S,F,P)\) 称为概率空间。有限可加不等价于可列可加,反例:\(S=[0,\infty)\)\(A_i=[i-1,i)\)\(P(A)=\lim_{k\to \infty} \lambda(A\cap (0,k))\)\(\lambda\) 表示交集长度。

条件概率

\(P(A)P(B|A)=P(AB)\)\(P(B|A)\) 表示已知 \(A\) 发生时 \(B\) 发生的概率。

贝叶斯公式

\(A_iA_j=\varnothing\),则 \(P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum_j P(A_j)P(B|A_j)}\)

独立事件

\(P(AB)=P(A)P(B)\)\(A,B\) 独立。\(A,B\) 独立则其补集之间也独立。

相互独立:对于任意事件子集 \(U\),都满足 \(P(\cap_U A)=\prod_{U}P(A)\)。相互独立,也可以把 \(A_i\) 换为补集。

第二章

离散随机变量

  • 两点分布:\(P(X=0)=1-p,P(X=1)=p\)

    二项分布:\(n\) 个两点分布(伯努利试验)中 \(1\) 的个数,\(P(X=k)=\binom nk p^k(1-p)^{n-k}\)\(X\sim B(n,p)\)

    \(P(X=k)\) 最大值取在 \(\lfloor (n+1)p\rfloor\)

  • 泊松分布:\(P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!}\)\(X\sim \pi(\lambda)\)

    \(P(X=k)\) 最大值取在 \(\lfloor\lambda\rfloor\)

    可以看成二项分布 \(n\to \infty,p\to \lambda/n\) 的结果。

    有可加性,两个独立的 \(\pi(u)+\pi(v)=\pi(u+v)\)

  • 几何分布:重复伯努利试验直到事件发生,此时失败次数的分布。\(P(X=k)=p(1-p)^k\)\(X\sim G(p)\)

    负二项分布(帕斯卡分布):重复伯努利试验直到事件发生 \(r\) 次,此时失败次数的分布。\(P(X=k)=\binom{k+r-1}{r-1}p^r(1-p)^k\)\(X\sim NB(r,p)\),这里 \(G(p)=NB(1,p)\)

    无记忆性:\(X\sim G(p)\to P(X>m+n|x>n)=P(X>m)\)

连续随机变量

分布函数 \(F(x)=P(X\le x)\):非负单调右连续。

概率密度函数:若存在概率密度函数 \(f\)(非负,归一)满足 \(F(x)=\int_{-\infty}^x f(x)\mathrm dx\),则称为连续随机变量。

\(f\) 连续,则 \(F'=f\)

  • 均匀分布 \(U(a,b)\)

  • 指数分布:概率密度为 \(f(x)=\begin{cases}\lambda e^{-\lambda x},x\ge 0\\0,x<0\end{cases}\)\(X\sim Exp(\lambda)\)

    无记忆性:\(X\sim Exp(\lambda)\to P(X>m+n|X>n)=P(X>m)\)

    可以看成几何分布的极限:\(n\) 次伯努利试验,\(n\to \infty,p\to \lambda/n\),期望成功时间。

  • \(\Gamma\) 分布:概率密度为 \(f(x)=\begin{cases}x^{\alpha-1}\lambda^{\alpha}e^{-\lambda x}/\Gamma(\alpha),x\ge 0\\0,x<0\end{cases}\)\(X\sim \Gamma(\alpha,\lambda)\)

    \(Exp(\lambda)\) 就是 \(\Gamma(1,\lambda)\)。对于正整数 \(n\)\(\Gamma(n)=(n-1)!\)\(\Gamma(\alpha)=\int_0^{+\infty}x^{\alpha-1}e^{-x}\mathrm dx\)

    可以看成负二项分布分布的极限:\(n\) 次伯努利试验,\(n\to \infty,p\to \lambda/n\),期望成功 \(\alpha\) 次时间。

    可以看成 \(\Gamma\) 函数定义中换元 \(x'=\lambda x\) 的结果。

  • 正态分布(高斯分布):概率密度为 \(f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)}\)\(X\sim N(\mu,\sigma^2)\)

    \(N(0,1)\)(标准正态分布)分布函数称为 \(\Phi\)

  • \(\chi^2\) 分布:\(\chi^2(n)=\Gamma(\frac n2,\frac 12)\),概率密度为 \(f(x)=\begin{cases}\frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{- x/2},x\ge 0\\0,x<0\end{cases}\)

    \(X\sim N(0,1)\),则 \(X^2\sim \chi^2(1)\)。若 \(n\) 个独立随机变量 \(X_i\sim N(0,1)\),则 \(\sum_i X_i\sim \chi^2(n)\)

    \(\chi^2(n)\) 密度函数积分为 1 是一个常用公式:

    \[\int_0^{\infty}x^te^{-x/2}\mathrm dx=2^{t+1}\Gamma(t+1) \]

密度变换公式

\(X\) 密度为 \(f_X(x)\)\(g(x)\) 严格单调,反函数 \(h(y)\) 导数连续,则 \(Y=g(X)\) 的密度为

\[f_Y(y)=f_X(h(y))\times |h'(y)| \]

证明考虑分布函数求导。

第三章

边缘分布、条件分布

离散型随机向量 \((X,Y)\) 边缘分布 \(p_{i\bullet}=P(X=x_i)\)。条件分布 \(P(X=x|Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)}\)

分布函数:\(F(\mathbf x)=P(\mathbf X\le \mathbf x)\)

连续性随机向量 \((X,Y)\) 边缘分布 \(F_X(x)=F(x,\infty)\)。条件分布 \(F_{X|Y}(x|y)\)(确定 \(Y=y\)\(X\) 的分布)为 \(\lim_{\epsilon\to 0^+}\frac{X\le x,y<Y<y+\epsilon}{P(y<Y<y+\epsilon)}\),也就是右侧取极限。

联合概率密度:若存在概率密度函数 \(f\)(非负归一)满足 \(F(\mathbf x)=\int_{-\infty}^\mathbf xf(\mathbf x)\mathrm d\mathbf x\),则 \(\mathbf x\) 称为连续随机向量。若 \(f\) 连续,则 \(F'=f\)(对每一维依次求偏导)。

边缘概率密度可以用联合概率密度在某维积分表示。若边缘概率密度连续且 \(>0\),则条件概率密度可以写成联合密度除以边缘密度。

二元正态分布(!!!)

随机向量 \((X,Y)\) 密度函数为

\[f(x,y)=\frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\left(\frac{-1}{2(1-\rho^2)}\left(\frac{(x-\mu_1)^2}{\sigma_1^2}+\frac{(y-\mu_2)^2}{\sigma_2^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}\right)\right) \]

称服从 \(N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\)

\(X,Y\) 分别服从 \(N(\mu_1,\sigma_1^2)\)\(N(\mu_2,\sigma_2^2)\)

\(Y=y\) 时,\(X\sim N(\mu_1+\rho\frac{\sigma_1}{\sigma_2}(y-\mu_2),(1-\rho^2)\sigma_1^2)\)

独立性

\(F_X(x)F_Y(y)=F(x,y)\) 总成立,则 \(X,Y\) 独立。若 \(f(x,y)=f_X(x)f_Y(y)\) 几乎处处成立(除去面积为 0 的区域),则 \(X,Y\) 独立。

多元随机变量:若 \(F(x_1,\dots,x_n)=F_{X_1}(x_1)\dots F_{X_n}(x_n)\),则称 \(x_1,\dots,x_n\) 相互独立,强于两两独立。这里,\(x_1,\dots,x_n\) 也可以是随机向量。

\(X,Y\) 相互独立,则 \(f(X),g(Y)\) 也相互独立。

卷积公式

和的分布可以用卷积公式:\((X,Y)\) 服从 \(f(x,y)\),则 \(Z=X+Y\) 密度为 \(f_Z(z)=\int_{-\infty}^{\infty}f(x,z-x)\mathrm dx\)

常用结论:

  • \(B(n,p)+B(m,p)=B(m+n,p)\)

  • \(\pi(n)+\pi(m)=\pi(n+m)\)

  • \(NB(n,p)+NB(m,p)=NB(m+n,p)\)

  • \(\Gamma(n,\lambda)+\Gamma(m,\lambda)=\Gamma(n+m,\lambda)\)

  • \(\chi^2(n)+\chi^2(m)=\chi^2(n+m)\)

    上述都可以结合组合意义理解。

  • \(N(\mu_1,\sigma_1^2)+N(\mu_2,\sigma_2^2)=N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\)

    独立正态分布的线性组合还是正态分布。

商分布公式

\((X,Y)\) 服从 \(f(x,y)\),则 \(Z=X/Y\) 密度为 \(f_Z(z)=\int_{-\infty}^{\infty}|y|f(yz,y)\mathrm dy\)

例:已知 \(X\sim N(0,1)\)\(Y\sim \chi^2(n)\)\(X,Y\) 独立,求 \(Z=X/\sqrt{Y/n}\) 密度。

解:\(Y\) 密度为

\[f_Y(y)=\begin{cases}\frac{1}{2^{n/2}\Gamma(n/2)}y^{n/2-1}e^{- y/2},y\ge 0\\0,y<0\end{cases} \]

所以 \(Y'=\sqrt{Y/n}\) 密度为(反函数 \(Y=nY'^2\)

\[f_Y'(y)=\begin{cases}\frac{1}{2^{n/2}\Gamma(n/2)}(ny^2)^{n/2-1}e^{- ny^2/2}\times 2ny,y\ge 0\\0,y<0\end{cases} \]

由此得 \(Z=X/Y'\) 密度为

\[\begin{aligned} f_Z(z)&=\int_{-\infty}^{\infty}|y|f(yz,y)\mathrm dy\\ &=\int_{0}^{\infty}2ny^2\frac{1}{2^{n/2}\Gamma(n/2)}(ny^2)^{n/2-1}e^{-ny^2/2}\times \frac{1}{\sqrt{2\pi}}e^{-y^2z^2/2}\mathrm dy\\ &=\frac{2n^{n/2}}{2^{n/2}\Gamma(n/2)\sqrt{2\pi}}\int_{0}^{\infty}y^ne^{-y^2(z^2+n)/2}\mathrm dy\\ &=\frac{2n^{n/2}}{2^{n/2}\Gamma(n/2)\sqrt{2\pi}(z^2+n)^{n/2}}\int_{0}^{\infty}t^{n/2}e^{-t/2}\mathrm dy\ (t:=y^2(z^2+n))\\ &=\frac{n^{n/2}}{2^{n/2}\Gamma(n/2)\sqrt{2\pi}(z^2+n)^{(n+1)/2}}\int_{0}^{\infty}t^{(n-1)/2}e^{-t/2}\mathrm dt\ (\mathrm dy=\frac 12t^{-1/2}(z^2+n)^{-1/2}\mathrm dt)\\ &=\frac{n^{n/2}}{2^{n/2}\Gamma(n/2)\sqrt{2\pi}(z^2+n)^{(n+1)/2}}2^{(n+1)/2}\Gamma((n+1)/2)\\ &=\frac{\Gamma((n+1)/2)n^{n/2}}{\Gamma(n/2)\sqrt{\pi}(z^2+n)^{(n+1)/2}} \end{aligned} \]

点评:这里用到了 \(\chi^2\) 分布积分公式。

min max 分布公式

对于 \(n\) 个独立随机变量,max 的分布函数为每个变量分布函数之积,min 分布函数为 \(1-\prod_{i}(1-F_{X_i}(x))\)

密度变换公式

设连续随机向量 \(\mathbf X\) 的密度为 \(f_{\mathbf X}(\mathbf x)\)\(g(\mathbf x)\) 有连续偏导数且反函数 \(h(\mathbf y)\) 连续,则 \(g(\mathbf X)\) 的概率密度为 \(f_{\mathbf Y}(\mathbf y)=f_{\mathbf X}(h(\mathbf y))\times |J(\mathbf y)|\)\(J(\mathbf y)\)\(h\)\(\mathbf y\) 处的 Jacobi 行列式,也即 \(J_{jk}=\partial h_j(\mathbf y)/\partial y_k\)

例:已知 \(X,Y\) 独立服从 \(N(0,1)\),求 \((X,Y)\) 的极坐标 \((r,\theta)\) 的概率密度。

解:直接套用密度公式得 \(f_{R,\theta}(r,\theta)=\frac 1{2\pi} re^{-r^2/2}\)

点评:这也说明 \(r,\theta\) 独立。

例:已知 \(X,Y\) 独立服从 \(N(0,1)\),求 \(X/Y\) 的分布。

解:设 \((z,w)=g(x,y)=(x/y,y)\),则 \(x=zw,y=w\)。利用密度变换公式得

\[\begin{aligned} f_{Z,W}(z,w)&=f_{X,Y}(zw,w)\times |J(z,w)|\\ &=\frac{|w|}{2\pi}e^{-(z^2w^2+w^2)/2} \end{aligned} \]

\[\begin{aligned} f_{Z}(z)&=\int_\R \frac{|w|}{2\pi}e^{-(z^2w^2+w^2)/2}\mathrm dw \\ &=\frac 1\pi\int^{+\infty}_0 we^{-w^2(z^2+1)/2}\mathrm dw \\ &=\frac{1}{\pi(z^2+1)} \end{aligned} \]

点评:此分布称为柯西分布。

例:设 \(Z_1,Z_2\in N(0,1)\),则 \((X_1=aZ_1+bZ_2+\mu_1,X_2=cZ_1+dZ_2+\mu_2)\) 服从什么分布?

解:服从 \(N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),其中 \(\sigma_1=\sqrt{a^2+b^2},\sigma_2=\sqrt{c_2+d^2},\rho=\frac{ac+bd}{\sigma_1\sigma_2}\)

点评:若 \(X,Y\) 服从二元正态分布,则其线性组合也服从二元正态分布。已知是正态分布的话,\(\sigma_1,\sigma_2,\rho\) 都可以用方差、相关系数的定义算出。

例:给定一个 \(U(0,1)\) 随机数生成器,用它生成符合给定分布 \(F(x)\) 的变量 \(X\)

解:\(X=F^{-1}(y)\),其中 \(Y\sim U(0,1)\)

例:生成单位圆内均匀分布的点。

解:考虑极坐标。\(\theta\) 显然均匀分布,计算易得 \(r\) 服从满足 \(F_R(r)=r^2\) 的分布。

例:生成 \(k\) 维单位球面内均匀分布的点。

解:先生成 \(k\) 个独立 \(N(0,1)\) 再归一化。

第四章

期望

设离散型随机变量 \(X\) 分布为 \(p_i=P(X=x_i)\),若 \(x_i\) 只有有限个或 \(\sum_i p_ix_i\) 绝对收敛,则称期望存在,记为 \(E(X)=\sum_i p_ix_i\)

常见离散型随机变量期望:

  • \(X\sim B(n,p)\to E(X)=np\)
  • \(X\sim \pi(\lambda)\to E(X)=\lambda\)
  • \(X\sim NB(r,p)\to E(X)=r(1-p)/p\)

\(X\) 为非负整数,则 \(E(X)=\sum_{n\ge 1}P(X\ge n)\)

设离散型随机变量 \(X\) 密度为 \(f(x)\),若 \(\int_{-\infty}^{\infty}xf(x)\mathrm dx\) 绝对收敛,则称期望存在,记为 \(E(X)=\int_{-\infty}^{\infty}xf(x)\mathrm dx\)

常见连续型随机变量期望:

  • \(X\sim U(a,b)\to E(X)=(a+b)/2\)
  • \(X\sim Exp(\lambda)\to E(X)=1/\lambda\)
  • \(X\sim \Gamma(\alpha,\lambda)\to E(X)=\alpha/\lambda\)
  • \(X\sim N(\mu,\sigma^2)\to E(X)=\mu\)
  • \(X\) 服从柯西分布 \(f(x)=\frac 1{\pi(x^2+1)}\),则 \(E(X)\) 不存在。

若分布函数为 \(F(x)\),则 \(E(X)=\int_0^{\infty}(1-F(x))\mathrm dx-\int_{-\infty}^0 F(x)\mathrm dx\)

设离散型随机变量 \(X\) 密度为 \(f(x)\),则 \(g(x)\) 期望为 \(E(g(x))=\int_{-\infty}^{\infty}f(x)g(x)\mathrm dx\)

期望有线性性。若 \(X_i\) 相互独立,则 \(E(\prod_i X_i)=\prod_i E(X_i)\)

例:设 \(X\sim N(0,1)\),求 \(E(X^2)\)

解:考虑 \(Y\sim N(0,1)\)\(X,Y\) 独立,求 \(E(X^2+Y^2)\) 再转到极坐标。

方差

\(x=E(X)\) 时,\(E((X-x)^2)\) 最小,称 \(E((X-E(X))^2)\)\(X\) 的方差 \(D(X)\)\(\mathrm{Var}(X)\),标准差 \(\sigma(X)=\sqrt{D(X)}\)\(D(X)=E(X^2)-E(X)^2\)

常见随机变量期望:

  • \(X\sim B(n,p)\to D(X)=np(1-p)\)
  • \(X\sim \pi(\lambda)\to D(X)=\lambda\)
  • \(X\sim NB(r,p)\to D(X)=r(1-p)/p^2\)
  • \(X\sim U(a,b)\to D(X)=(b-a)^2/12\)
  • \(X\sim \Gamma(\alpha,\lambda)\to D(X)=\alpha/\lambda^2\)
  • \(X\sim N(\mu,\sigma^2)\to D(X)=\sigma^2\)

\(D(cX+d)=c^2D(X)\)。对于相互独立随机变量 \(X_i\)\(D(\sum_i X_i)=\sum_i D(X_i)\)。设 \(X\) 为任意随机变量,则 \(Y=(X-E(X))/\sigma(X)\)(称为 \(X\) 的标准化)总具有均值 0 和方差 1。

协方差和多元正态分布

定义协方差 \(\mathrm{Cov}(X,Y)=E((X-E(X))(Y-E(Y)))=D(X+Y)-D(X)-D(Y)=E(XY)-E(X)E(Y)\),因此 \(D(\sum_{i}X_i)=\sum_i D(X_i)+2\sum_{i<j}\mathrm{Cov}(X_i,X_j)\)。定义相关系数 \(\rho_{X,Y}=\mathrm{Cov}(x,y)/\sqrt{D(X)D(Y)}\)

协方差是双线性函数,相关系数就是 \(X,Y\) 标准化后的协方差。

例:证明 \(|\rho_{XY}|\le 1\),并且 \(|\rho_{XY}=1|\iff \exists a,b,c,P(aX+bY+c=0)=1\)

解:不妨假设 \(E(X)=E(Y)=0\),根据柯西不等式

\[\rho_{XY}^2=\frac{E(XY)^2}{E(X^2)E(Y^2)}\le 1 \]

只需证 \(|\rho_{XY}=1|\to \exists a,b,P(Y=aX+b)=1\)。将 \(a\) 视为变量,则

\[E((Y-aX)^2)=a^2E(X^2)-2aE(XY)+E(Y^2) \]

因为 \(\rho_{XY}=1\),所以 \(E(XY)^2=E(X^2)E(Y^2)\),所以 \(E((Y-aX)^2)=(a\sqrt{E(X^2)}-\sqrt{E(Y^2)})^2\),当 \(E(X^2)E(Y^2)\ne 0\) 时一定有零点,取该 \(a\) 即可,否则是边界情况,也是显然的。

\(X,Y\) 不线性相关,当且仅当下面任意一条(这三条等价)满足:

  • \(\mathrm{Cov}(X,Y)=0\)
  • \(E(XY)=E(X)E(Y)\)
  • \(D(X+Y)=D(X)+D(Y)\)

独立则不线性相关,反之不然。对于正太分布变量,线性相关等价于不独立。

随机变量 \(X\)\(k\) 阶矩为 \(E(X^k)\),中心矩为 \(E((X-E(X))^k)\)。三阶矩叫“偏度”,四阶矩叫“峰度”。\(X,Y\)\(k+l\) 阶混合矩为 \(E(X^kY^l)\),中心矩为 \(E((X-E(X))^k(Y-E(Y))^l)\)。设 \(X\sim N(0,1)\),则 \(E(X^{2k})=(2k-1)\times (2k-3)\times \dots \times 1\)\(E(X^{2k-1})=0\ (k\in \Z^+)\)

\(\mathbf X\) 为随机向量,则 \(B=E((\mathbf X-E(\mathbf X))(\mathbf X-E(\mathbf X))')\)\(\mathbf X\) 的协方差矩阵。

例:证明 \(B\) 一定半正定。

解:\(\forall \mathbf\alpha,\mathbf\alpha'B\mathbf\alpha=E((\mathbf \alpha,\mathbf X)^2)\ge 0\)

给定可逆协方差矩阵 \(B\) 和向量 \(\mathbf \mu\),多元正态分布概率密度可写为

\[f(\mathbf x)=\frac{1}{(2\pi)^{n/2}|B|^{1/2}}\exp\left(-\frac 12(\mathbf x-\mathbf \mu)'B^{-1}(\mathbf x-\mathbf \mu)\right) \]

多元正态分布的边缘分布、线性组合都是正态分布,设 \(\mathbf X\sim N(\mathbf \mu,B)\),则 \(A\mathbf X+\mathbf b\sim N(A\mathbf \mu+\mathbf b,ABA')\)。若 \(B=E\),则称为 \(n\) 维标准正态分布。所有多元正态分布都是标准正态分布的线性组合:任意半正定矩阵 \(B\) 都可以写成 \(B=AA'\) 的形式,故 \(\mathbf X\sim N(\mathbf \mu,B)\) 说明 \(\mathbf X=A\mathbf Z+\mathbf \mu\),其中 \(Z\) 服从 \(n\) 维标准正态分布。换句话说,多元正态分布总能通过合理线性组合变独立,这有时方便计算。

例:设 \((X_1,X_2)\sim N(0,0,1,1,1/2)\)。求 \(E(X_1^2X_2^2)\)

解:先求 \(a\) 使得 \(X_1-aX_2\)\(X_2\) 独立,根据正态分布的性质,只需 \(\mathrm{Cov}(X_1-aX_2,X_2)=0\),也即 \(\mathrm{Cov}(X_1,X_2)-aD(X_2)=0\),得 \(a=\frac 12\)。令 \(Z=X_1-aX_2\),则 \(D(Z)=3/4\),故 \(Z\sim N(0,3/4)\)。因此

\[\begin{aligned} E(X_1^2X_2^2)&=E(Z^2X_2^2+ZX_2^3+X_2^4/4)\\ &=E(Z^2)E(X_2^2)+E(Z)E(X_2^3)+E(X_2^4)/4\\ &=3/2 \end{aligned} \]

第五章

特征函数

对于随机变量 \(X\),令 \(\mathbb R\to \mathbb C\) 的函数 \(\psi_X(t)=E(e^{itX})\) 为其特征函数。

常见分布特征函数:

  • 退化分布 \(P(X=x)=1\)\(\psi_X(t)=e^{itx}\)
  • \(X\sim \pi(\lambda)\to \psi_X(t)=e^{\lambda(e^{it}-1)}\)
  • \(X\sim N(0,1)\to \psi_X(t)=e^{-t^2/2}\)

特征函数的性质:

  • \(aX+b\) 特征函数为 \(\psi(t)=e^{itb}\psi_X(at)\)
  • \(X_i\) 相互独立,则 \(\sum X_i\) 特征函数为 \(\psi(t)=\prod_i\psi_{X_i}(t)\)
  • \(X\) 存在 \(k\) 阶矩,则 \(E(X^k)=(-i)^k\psi_X^{(k)}(0)\)

唯一性定理:随机变量的分布函数由特征函数唯一决定。

大数定律

定义

设随机变量 \(X\) 和一列随机变量 \(X_i\) 满足

\[\forall \epsilon>0,\lim_{n\to \infty}P(|X_n-X|<\epsilon)=1 \]

则称 \(X_n\) 依概率收敛于 \(X\),记作 \(X_n\stackrel{P}{\rightarrow}X\ (n\to \infty)\)。若 \(X_n\stackrel{P}{\rightarrow}X,Y_n\stackrel{P}{\rightarrow}Y\)\(g\) 连续,则 \(g(X_n,Y_n)\stackrel{P}{\rightarrow} g(X,Y)\)

设一列随机变量 \(X_i\) 和一列固定常数 \(a_i\) 满足

\[\forall \epsilon>0,\lim_{n\to \infty}P(\left|a_n-\frac 1n\sum_{i=1}^n X_i\right|<\epsilon)=1 \]

则称 \(X_i\) 服从大数定律。

例:设 \(X_i\) 两两独立,都服从柯西分布(密度 \(f(x)=\frac{1}{\pi(1+x^2)}\))。证明不存在常数 \(c\) 使得 \(\frac 1n\sum_{i=1}^nX_i\stackrel{P}{\rightarrow} c\)

解:容易算得 \(\frac 1n\sum_{i=1}^nX_i\) 也服从柯西分布,故显然不能依概率收敛到常数。

设随机变量 \(X\) 和一列随机变量 \(X_i\) 满足

\[P(\lim_{n\to \infty}X_n=X)=1 \]

则称 \(X_n\) 几乎必然收敛于 \(X\),记作 \(X_n\stackrel{a.s.}{\rightarrow}X\ (n\to \infty)\)

\(A_n(\epsilon)=\{|X_n-X|\ge \epsilon\}\),则几乎必然收敛的定义等价于 \(\forall \epsilon>0,\lim_{n\to \infty}P(\lor_{m=n}^{\infty}A_m(\epsilon))=0\)。而依概率收敛的定义等价于 \(\forall \epsilon>0,\lim_{n\to \infty}P(A_n(\epsilon))=0\)。两者区别类似于,后者只要求某个序列 \(\to 0\),而前者要求这个序列后缀和也 \(\to 0\)。所以几乎必然收敛则一定依概率收敛(可以用定义验证),反之不然。例如,\(X_n\sim B(1,1/n)\) 且相互独立,则 \(X_n\stackrel{P}{\rightarrow}B(1,0)\),但列式即知 \(X_n\) 不几乎必然收敛于 \(B(1,0)\)

设分布函数为 \(F_X(x)\) 的随机变量 \(X\) 和一列分布函数为 \(F_{X_i}(x)\) 的随机变量 \(X_i\) 满足,若 \(F_X(x)\)\(x_0\) 处连续,则

\[\lim_{n\to \infty}F_{X_n}(x_0)=F_X(x_0) \]

则称 \(F_{X_i}(x)\) 弱收敛于 \(F_X(x)\)\(X_i\) 依分布收敛于 \(X\),记作 \(X_n\stackrel{d}{\rightarrow}X\ (n\to \infty)\)

依概率收敛则依分布收敛,反之不然,因为分布相同具体取值可以不同。若收敛到常数,则依分布收敛等价于依概率收敛。

连续性定理:\(F_{X_i}(x)\) 弱收敛于 \(F_X(x)\) 等价于特征函数 \(\psi_{X_i}(x)\) 逐点收敛于 \(\psi_X(t)\)

几个不等式

马尔科夫不等式:设 \(E(|X|^k)\) 存在,则对于 \(\epsilon>0\)\(P(|X|\ge \epsilon)\le E(|X|^k)/\epsilon^k\)

切比雪夫不等式:设 \(E(X),D(X)\) 存在,则对于 \(\epsilon>0\)\(P(|X-E(X)|\ge \epsilon)\le D(X)/\epsilon^2\)

Hoeffding 不等式:设 \(X\in [a,b]\)\(E(X)\) 存在,则对于 \(\epsilon>0\)\(P(X-E(X)\ge \epsilon)\le \exp(-2\epsilon^2/(b-a)^2)\)\(P(X-E(X)\le -\epsilon)\le \exp(-2\epsilon^2/(b-a)^2)\)

证明:将第一个不等式中 \(X\to -X\) 即得到第二个不等式,下面只证第一个。不妨假设 \(E(X)=0\)。取 \(t>0\),则 \(P(X\ge \epsilon)\le e^{-t\epsilon} E(e^{tX})\)

由于 \(X\in [a,b]\),所以由 \(e^{tx}\) 凸性得 \(E(e^{tX})\le \frac{bE(e^{ta})-aE(e^{tb})}{b-a}\)。定义 \(\varphi(t)=\ln \frac{bE(e^{ta})-aE(e^{tb})}{b-a}\),对其求导可知 \(\varphi(0)=0,\varphi'(0)=0,\varphi''(t)\le (b-a)^2/4\)。因此由带拉格朗日余项泰勒展开知 \(\varphi(t)\le t^2(b-a)^2/8\)。因此 \(E(e^{tX}\le \exp(t^2(b-a)^2/8))\)。因此上式 \(\le e^{t^2(b-a)^2/8-t\epsilon}\),取 \(t=4\epsilon/(b-a)^2\) 即得。

弱大数定律

依概率收敛下的大数定理为弱大数定律。

  • 切比雪夫大数定律:设 \(X_i\) 两两独立(注意不用相互独立),\(X_i\) 方差有界 \(M\),则 \(\sum_{i\le n}X_i/n\stackrel{P}{\rightarrow}\sum_{i\le n}E(X_i)/n\)
    证明:根据切比雪夫不等式,

    \[\begin{aligned} P\left(\left|\frac 1n\sum_{i\le n}X_i-\frac 1n\sum_{i\le n}E(X_i)\right|\ge \epsilon\right)&\le \frac{D\left(\frac 1n\sum_{i\le n}X_i\right)}{\epsilon^2}\\ &=\frac{\sum_{i=1}^n D(X_i)}{n^2\epsilon^2}\\ &\le \frac{M}{n\epsilon^2}\\ &\to 0 \end{aligned} \]

  • 马尔可夫大数定律:设 \(X_i\) 满足 \(\lim_{n\to \infty} \frac 1{n^2}\sum_{i=1}^n D(X_i)=0\),则 \(\sum_{i\le n}X_i/n\stackrel{P}{\rightarrow}\sum_{i\le n}E(X_i)/n\)
    证明:同上。切比雪夫不等式就是用两两独立和方差有界保证了要求的极限为 0。
  • 辛钦大数定律:设 \(X_i\) 相互独立同分布,存在期望 \(\mu=E(X_i)\),则 \(\sum_{i\le n}X_i/n\stackrel{P}{\rightarrow}\mu\)
    证明:由题可知 \(X_i\) 特征函数存在导数且 \(\psi_{X_i}(t)=\psi_{X_i}(0)+\psi'_{X_i}(t)+o(t)=1+i\mu t+o(t)\)。令 \(A_n=\sum_{i\le n}X_i/n\),则 \(\psi_{A_n}(t)=\prod_{k=1}^n \psi_{X_k}(t/n)=(1+i\mu t/n+o(t/n))^n\)。令 \(n\to \infty\)\(\psi_{A_n}(t)\to e^{it\mu}\),此即为退化分布 \(X=\mu\) 特征函数。根据连续性定理,\(A_n\stackrel{d}{\rightarrow}\mu\),而依分布收敛于常数等价于依概率收敛于常数,证毕。

强大数定律

几乎必然收敛下的大数定理为强大数定律。

  • 四阶矩有界的强大数定律:设 \(X_i\) 相互独立,存在期望、四阶矩,四阶矩有界 \(M\)。记 \(S_n=\sum_{i\le n}X_i\),则 \((S_n-E(S_n))/n\stackrel{a.s.}{\rightarrow}0\)
    证明:不妨设 \(E(X_i)=0\)。记 \(A_n=\{|S_n/n|\ge \epsilon\}\),只需验证 \(P(\lor_{m=n}^{\infty}A_m)\to 0\)。由马尔可夫不等式

    \[\begin{aligned} P(\lor_{m=n}^{\infty}A_m)&\le \sum_{m=n}^{\infty}P(A_m)\\ &\le \sum_{m=n}^{\infty}\frac{E(S_m^4)}{m^4\epsilon^4} \end{aligned} \]

    注意到 \(E(S_m^4)=\sum_{i,j,k,l\le m}E(X_iX_jX_kX_l)\)。若 \(X_i,X_j,X_k,X_l\) 中有只出现一次的,则根据独立性期望为 0,所以只有 \(E(X_i^4)\)\(E(X_i^2X_j^2)\) 有贡献,因此

    \[\begin{aligned} \sum_{i,j,k,l\le m}E(X_iX_jX_kX_l)&=\sum_{i\le m}E(X_i^4)+\binom 42 \sum_{i<j\le m}E(X_i^2X_j^2)\\ &\le \sum_{i\le m}E(X_i^4)+\binom 42 \sum_{i<j\le m}\sqrt{E(X_i^4)E(X_j^4)}\\ &\le O(m^2M) \end{aligned} \]

    因此

    \[\begin{aligned} P(\lor_{m=n}^{\infty}A_m)&\le \sum_{m=n}^{\infty}\frac{O(m^2M)}{m^4\epsilon^4}\\ &=\sum_{m=n}^{\infty}O(m^{-2})\\ &\to 0 \end{aligned} \]

  • Kolmogorove 强大数定律:设 \(X_i\) 相互独立同分布,存在期望 \(\mu\),记 \(S_n=\sum_{i\le n}X_i\),则 \(S_n/n\stackrel{a.s.}{\rightarrow}\mu\)
    这也是最常用的强大数定律,不会证。

中心极限定理

Lindeberg-Lévy 定理:设 \(X_i\) 相互独立同分布,存在期望 \(\mu\) 方差 \(\sigma^2\),记 \(A_n=(\sum_{i=1}^n (X_i-\mu))/(\sqrt n\sigma)\),则 \(A_n\stackrel{d}{\rightarrow}N(0,1)\)

证明:不妨假设 \(\mu=0\),根据特征函数的性质,\(\psi_{X_i}(t)=\psi_{X_i}(0)+\psi'_{X_i}(t)+\psi''_{X_i}(t)t^2/2+o(t^2)=1-\sigma^2t^2+o(t^2)\)。因此 \(\psi_{A_n}(t)=(\psi_{X_i}(t/(\sqrt n\sigma)))^n=(1-t^2/2n+o(t^2/n))^n\to e^{-t^2/2}\),此即为 \(N(0,1)\) 特征函数,由连续性定理得证。

这个定理告诉我们,对独立同分布的 \(X_i\) 以及较大的 \(n\)\(A_n=\frac 1n\sum_{i\le n}X_i\) 可以大概认为是 \(N(\mu,\sigma^2/n)\),再结合标准正态分布的分布函数表,就可以估计 \(P(A_n\in [a,b])\) 或类似概率。

posted @ 2024-04-14 21:56  tianbu  阅读(418)  评论(0)    收藏  举报