概统期中复习
第一章
概率的公理化
样本空间 \(S\),事件集合 \(F\) 是 \(S\) 的一个子集族,满足 \(S\in F\);\(A\in F\to \overline A\in F\);\(A_i\in F\to \cup_{i}A_i\in F\)。
概率是满足 \(P(S)=1\)(规范性)的测度,要求 \(P(A)\ge 0\)(非负性),\(A_iA_j=\varnothing \to P(\cup_i A_i)=\sum_i P(A_i)\)(可列可加性)。
\((S,F,P)\) 称为概率空间。有限可加不等价于可列可加,反例:\(S=[0,\infty)\),\(A_i=[i-1,i)\),\(P(A)=\lim_{k\to \infty} \lambda(A\cap (0,k))\),\(\lambda\) 表示交集长度。
条件概率
\(P(A)P(B|A)=P(AB)\),\(P(B|A)\) 表示已知 \(A\) 发生时 \(B\) 发生的概率。
贝叶斯公式
\(A_iA_j=\varnothing\),则 \(P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum_j P(A_j)P(B|A_j)}\)。
独立事件
\(P(AB)=P(A)P(B)\) 则 \(A,B\) 独立。\(A,B\) 独立则其补集之间也独立。
相互独立:对于任意事件子集 \(U\),都满足 \(P(\cap_U A)=\prod_{U}P(A)\)。相互独立,也可以把 \(A_i\) 换为补集。
第二章
离散随机变量
-
两点分布:\(P(X=0)=1-p,P(X=1)=p\)。
二项分布:\(n\) 个两点分布(伯努利试验)中 \(1\) 的个数,\(P(X=k)=\binom nk p^k(1-p)^{n-k}\),\(X\sim B(n,p)\)。
\(P(X=k)\) 最大值取在 \(\lfloor (n+1)p\rfloor\)。
-
泊松分布:\(P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!}\),\(X\sim \pi(\lambda)\)。
\(P(X=k)\) 最大值取在 \(\lfloor\lambda\rfloor\)。
可以看成二项分布 \(n\to \infty,p\to \lambda/n\) 的结果。
有可加性,两个独立的 \(\pi(u)+\pi(v)=\pi(u+v)\)。
-
几何分布:重复伯努利试验直到事件发生,此时失败次数的分布。\(P(X=k)=p(1-p)^k\),\(X\sim G(p)\)。
负二项分布(帕斯卡分布):重复伯努利试验直到事件发生 \(r\) 次,此时失败次数的分布。\(P(X=k)=\binom{k+r-1}{r-1}p^r(1-p)^k\),\(X\sim NB(r,p)\),这里 \(G(p)=NB(1,p)\)。
无记忆性:\(X\sim G(p)\to P(X>m+n|x>n)=P(X>m)\)。
连续随机变量
分布函数 \(F(x)=P(X\le x)\):非负单调右连续。
概率密度函数:若存在概率密度函数 \(f\)(非负,归一)满足 \(F(x)=\int_{-\infty}^x f(x)\mathrm dx\),则称为连续随机变量。
若 \(f\) 连续,则 \(F'=f\)。
-
均匀分布 \(U(a,b)\)
-
指数分布:概率密度为 \(f(x)=\begin{cases}\lambda e^{-\lambda x},x\ge 0\\0,x<0\end{cases}\),\(X\sim Exp(\lambda)\)。
无记忆性:\(X\sim Exp(\lambda)\to P(X>m+n|X>n)=P(X>m)\)。
可以看成几何分布的极限:\(n\) 次伯努利试验,\(n\to \infty,p\to \lambda/n\),期望成功时间。
-
\(\Gamma\) 分布:概率密度为 \(f(x)=\begin{cases}x^{\alpha-1}\lambda^{\alpha}e^{-\lambda x}/\Gamma(\alpha),x\ge 0\\0,x<0\end{cases}\),\(X\sim \Gamma(\alpha,\lambda)\)。
\(Exp(\lambda)\) 就是 \(\Gamma(1,\lambda)\)。对于正整数 \(n\),\(\Gamma(n)=(n-1)!\)。\(\Gamma(\alpha)=\int_0^{+\infty}x^{\alpha-1}e^{-x}\mathrm dx\)。
可以看成负二项分布分布的极限:\(n\) 次伯努利试验,\(n\to \infty,p\to \lambda/n\),期望成功 \(\alpha\) 次时间。
可以看成 \(\Gamma\) 函数定义中换元 \(x'=\lambda x\) 的结果。
-
正态分布(高斯分布):概率密度为 \(f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)}\),\(X\sim N(\mu,\sigma^2)\)。
\(N(0,1)\)(标准正态分布)分布函数称为 \(\Phi\)。
-
\(\chi^2\) 分布:\(\chi^2(n)=\Gamma(\frac n2,\frac 12)\),概率密度为 \(f(x)=\begin{cases}\frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{- x/2},x\ge 0\\0,x<0\end{cases}\)。
若 \(X\sim N(0,1)\),则 \(X^2\sim \chi^2(1)\)。若 \(n\) 个独立随机变量 \(X_i\sim N(0,1)\),则 \(\sum_i X_i\sim \chi^2(n)\)。
\(\chi^2(n)\) 密度函数积分为 1 是一个常用公式:
\[\int_0^{\infty}x^te^{-x/2}\mathrm dx=2^{t+1}\Gamma(t+1) \]
密度变换公式
\(X\) 密度为 \(f_X(x)\),\(g(x)\) 严格单调,反函数 \(h(y)\) 导数连续,则 \(Y=g(X)\) 的密度为
证明考虑分布函数求导。
第三章
边缘分布、条件分布
离散型随机向量 \((X,Y)\) 边缘分布 \(p_{i\bullet}=P(X=x_i)\)。条件分布 \(P(X=x|Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)}\)。
分布函数:\(F(\mathbf x)=P(\mathbf X\le \mathbf x)\)。
连续性随机向量 \((X,Y)\) 边缘分布 \(F_X(x)=F(x,\infty)\)。条件分布 \(F_{X|Y}(x|y)\)(确定 \(Y=y\),\(X\) 的分布)为 \(\lim_{\epsilon\to 0^+}\frac{X\le x,y<Y<y+\epsilon}{P(y<Y<y+\epsilon)}\),也就是右侧取极限。
联合概率密度:若存在概率密度函数 \(f\)(非负归一)满足 \(F(\mathbf x)=\int_{-\infty}^\mathbf xf(\mathbf x)\mathrm d\mathbf x\),则 \(\mathbf x\) 称为连续随机向量。若 \(f\) 连续,则 \(F'=f\)(对每一维依次求偏导)。
边缘概率密度可以用联合概率密度在某维积分表示。若边缘概率密度连续且 \(>0\),则条件概率密度可以写成联合密度除以边缘密度。
二元正态分布(!!!)
随机向量 \((X,Y)\) 密度函数为
称服从 \(N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\)。
\(X,Y\) 分别服从 \(N(\mu_1,\sigma_1^2)\),\(N(\mu_2,\sigma_2^2)\)。
\(Y=y\) 时,\(X\sim N(\mu_1+\rho\frac{\sigma_1}{\sigma_2}(y-\mu_2),(1-\rho^2)\sigma_1^2)\)。
独立性
若 \(F_X(x)F_Y(y)=F(x,y)\) 总成立,则 \(X,Y\) 独立。若 \(f(x,y)=f_X(x)f_Y(y)\) 几乎处处成立(除去面积为 0 的区域),则 \(X,Y\) 独立。
多元随机变量:若 \(F(x_1,\dots,x_n)=F_{X_1}(x_1)\dots F_{X_n}(x_n)\),则称 \(x_1,\dots,x_n\) 相互独立,强于两两独立。这里,\(x_1,\dots,x_n\) 也可以是随机向量。
若 \(X,Y\) 相互独立,则 \(f(X),g(Y)\) 也相互独立。
卷积公式
和的分布可以用卷积公式:\((X,Y)\) 服从 \(f(x,y)\),则 \(Z=X+Y\) 密度为 \(f_Z(z)=\int_{-\infty}^{\infty}f(x,z-x)\mathrm dx\)。
常用结论:
-
\(B(n,p)+B(m,p)=B(m+n,p)\)
-
\(\pi(n)+\pi(m)=\pi(n+m)\)
-
\(NB(n,p)+NB(m,p)=NB(m+n,p)\)
-
\(\Gamma(n,\lambda)+\Gamma(m,\lambda)=\Gamma(n+m,\lambda)\)
-
\(\chi^2(n)+\chi^2(m)=\chi^2(n+m)\)
上述都可以结合组合意义理解。
-
\(N(\mu_1,\sigma_1^2)+N(\mu_2,\sigma_2^2)=N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\)
独立正态分布的线性组合还是正态分布。
商分布公式
设 \((X,Y)\) 服从 \(f(x,y)\),则 \(Z=X/Y\) 密度为 \(f_Z(z)=\int_{-\infty}^{\infty}|y|f(yz,y)\mathrm dy\)。
例:已知 \(X\sim N(0,1)\),\(Y\sim \chi^2(n)\),\(X,Y\) 独立,求 \(Z=X/\sqrt{Y/n}\) 密度。
解:\(Y\) 密度为
\[f_Y(y)=\begin{cases}\frac{1}{2^{n/2}\Gamma(n/2)}y^{n/2-1}e^{- y/2},y\ge 0\\0,y<0\end{cases} \]所以 \(Y'=\sqrt{Y/n}\) 密度为(反函数 \(Y=nY'^2\))
\[f_Y'(y)=\begin{cases}\frac{1}{2^{n/2}\Gamma(n/2)}(ny^2)^{n/2-1}e^{- ny^2/2}\times 2ny,y\ge 0\\0,y<0\end{cases} \]由此得 \(Z=X/Y'\) 密度为
\[\begin{aligned} f_Z(z)&=\int_{-\infty}^{\infty}|y|f(yz,y)\mathrm dy\\ &=\int_{0}^{\infty}2ny^2\frac{1}{2^{n/2}\Gamma(n/2)}(ny^2)^{n/2-1}e^{-ny^2/2}\times \frac{1}{\sqrt{2\pi}}e^{-y^2z^2/2}\mathrm dy\\ &=\frac{2n^{n/2}}{2^{n/2}\Gamma(n/2)\sqrt{2\pi}}\int_{0}^{\infty}y^ne^{-y^2(z^2+n)/2}\mathrm dy\\ &=\frac{2n^{n/2}}{2^{n/2}\Gamma(n/2)\sqrt{2\pi}(z^2+n)^{n/2}}\int_{0}^{\infty}t^{n/2}e^{-t/2}\mathrm dy\ (t:=y^2(z^2+n))\\ &=\frac{n^{n/2}}{2^{n/2}\Gamma(n/2)\sqrt{2\pi}(z^2+n)^{(n+1)/2}}\int_{0}^{\infty}t^{(n-1)/2}e^{-t/2}\mathrm dt\ (\mathrm dy=\frac 12t^{-1/2}(z^2+n)^{-1/2}\mathrm dt)\\ &=\frac{n^{n/2}}{2^{n/2}\Gamma(n/2)\sqrt{2\pi}(z^2+n)^{(n+1)/2}}2^{(n+1)/2}\Gamma((n+1)/2)\\ &=\frac{\Gamma((n+1)/2)n^{n/2}}{\Gamma(n/2)\sqrt{\pi}(z^2+n)^{(n+1)/2}} \end{aligned} \]点评:这里用到了 \(\chi^2\) 分布积分公式。
min max 分布公式
对于 \(n\) 个独立随机变量,max 的分布函数为每个变量分布函数之积,min 分布函数为 \(1-\prod_{i}(1-F_{X_i}(x))\)。
密度变换公式
设连续随机向量 \(\mathbf X\) 的密度为 \(f_{\mathbf X}(\mathbf x)\),\(g(\mathbf x)\) 有连续偏导数且反函数 \(h(\mathbf y)\) 连续,则 \(g(\mathbf X)\) 的概率密度为 \(f_{\mathbf Y}(\mathbf y)=f_{\mathbf X}(h(\mathbf y))\times |J(\mathbf y)|\),\(J(\mathbf y)\) 为 \(h\) 在 \(\mathbf y\) 处的 Jacobi 行列式,也即 \(J_{jk}=\partial h_j(\mathbf y)/\partial y_k\)。
例:已知 \(X,Y\) 独立服从 \(N(0,1)\),求 \((X,Y)\) 的极坐标 \((r,\theta)\) 的概率密度。
解:直接套用密度公式得 \(f_{R,\theta}(r,\theta)=\frac 1{2\pi} re^{-r^2/2}\)。
点评:这也说明 \(r,\theta\) 独立。
例:已知 \(X,Y\) 独立服从 \(N(0,1)\),求 \(X/Y\) 的分布。
解:设 \((z,w)=g(x,y)=(x/y,y)\),则 \(x=zw,y=w\)。利用密度变换公式得
\[\begin{aligned} f_{Z,W}(z,w)&=f_{X,Y}(zw,w)\times |J(z,w)|\\ &=\frac{|w|}{2\pi}e^{-(z^2w^2+w^2)/2} \end{aligned} \]故
\[\begin{aligned} f_{Z}(z)&=\int_\R \frac{|w|}{2\pi}e^{-(z^2w^2+w^2)/2}\mathrm dw \\ &=\frac 1\pi\int^{+\infty}_0 we^{-w^2(z^2+1)/2}\mathrm dw \\ &=\frac{1}{\pi(z^2+1)} \end{aligned} \]点评:此分布称为柯西分布。
例:设 \(Z_1,Z_2\in N(0,1)\),则 \((X_1=aZ_1+bZ_2+\mu_1,X_2=cZ_1+dZ_2+\mu_2)\) 服从什么分布?
解:服从 \(N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),其中 \(\sigma_1=\sqrt{a^2+b^2},\sigma_2=\sqrt{c_2+d^2},\rho=\frac{ac+bd}{\sigma_1\sigma_2}\)。
点评:若 \(X,Y\) 服从二元正态分布,则其线性组合也服从二元正态分布。已知是正态分布的话,\(\sigma_1,\sigma_2,\rho\) 都可以用方差、相关系数的定义算出。
例:给定一个 \(U(0,1)\) 随机数生成器,用它生成符合给定分布 \(F(x)\) 的变量 \(X\)。
解:\(X=F^{-1}(y)\),其中 \(Y\sim U(0,1)\)。
例:生成单位圆内均匀分布的点。
解:考虑极坐标。\(\theta\) 显然均匀分布,计算易得 \(r\) 服从满足 \(F_R(r)=r^2\) 的分布。
例:生成 \(k\) 维单位球面内均匀分布的点。
解:先生成 \(k\) 个独立 \(N(0,1)\) 再归一化。
第四章
期望
设离散型随机变量 \(X\) 分布为 \(p_i=P(X=x_i)\),若 \(x_i\) 只有有限个或 \(\sum_i p_ix_i\) 绝对收敛,则称期望存在,记为 \(E(X)=\sum_i p_ix_i\)。
常见离散型随机变量期望:
- \(X\sim B(n,p)\to E(X)=np\)
- \(X\sim \pi(\lambda)\to E(X)=\lambda\)
- \(X\sim NB(r,p)\to E(X)=r(1-p)/p\)
若 \(X\) 为非负整数,则 \(E(X)=\sum_{n\ge 1}P(X\ge n)\)。
设离散型随机变量 \(X\) 密度为 \(f(x)\),若 \(\int_{-\infty}^{\infty}xf(x)\mathrm dx\) 绝对收敛,则称期望存在,记为 \(E(X)=\int_{-\infty}^{\infty}xf(x)\mathrm dx\)。
常见连续型随机变量期望:
- \(X\sim U(a,b)\to E(X)=(a+b)/2\)
- \(X\sim Exp(\lambda)\to E(X)=1/\lambda\)
- \(X\sim \Gamma(\alpha,\lambda)\to E(X)=\alpha/\lambda\)
- \(X\sim N(\mu,\sigma^2)\to E(X)=\mu\)
- \(X\) 服从柯西分布 \(f(x)=\frac 1{\pi(x^2+1)}\),则 \(E(X)\) 不存在。
若分布函数为 \(F(x)\),则 \(E(X)=\int_0^{\infty}(1-F(x))\mathrm dx-\int_{-\infty}^0 F(x)\mathrm dx\)。
设离散型随机变量 \(X\) 密度为 \(f(x)\),则 \(g(x)\) 期望为 \(E(g(x))=\int_{-\infty}^{\infty}f(x)g(x)\mathrm dx\)。
期望有线性性。若 \(X_i\) 相互独立,则 \(E(\prod_i X_i)=\prod_i E(X_i)\)。
例:设 \(X\sim N(0,1)\),求 \(E(X^2)\)。
解:考虑 \(Y\sim N(0,1)\) 且 \(X,Y\) 独立,求 \(E(X^2+Y^2)\) 再转到极坐标。
方差
当 \(x=E(X)\) 时,\(E((X-x)^2)\) 最小,称 \(E((X-E(X))^2)\) 为 \(X\) 的方差 \(D(X)\) 或 \(\mathrm{Var}(X)\),标准差 \(\sigma(X)=\sqrt{D(X)}\)。\(D(X)=E(X^2)-E(X)^2\)。
常见随机变量期望:
- \(X\sim B(n,p)\to D(X)=np(1-p)\)
- \(X\sim \pi(\lambda)\to D(X)=\lambda\)
- \(X\sim NB(r,p)\to D(X)=r(1-p)/p^2\)
- \(X\sim U(a,b)\to D(X)=(b-a)^2/12\)
- \(X\sim \Gamma(\alpha,\lambda)\to D(X)=\alpha/\lambda^2\)
- \(X\sim N(\mu,\sigma^2)\to D(X)=\sigma^2\)
\(D(cX+d)=c^2D(X)\)。对于相互独立随机变量 \(X_i\),\(D(\sum_i X_i)=\sum_i D(X_i)\)。设 \(X\) 为任意随机变量,则 \(Y=(X-E(X))/\sigma(X)\)(称为 \(X\) 的标准化)总具有均值 0 和方差 1。
协方差和多元正态分布
定义协方差 \(\mathrm{Cov}(X,Y)=E((X-E(X))(Y-E(Y)))=D(X+Y)-D(X)-D(Y)=E(XY)-E(X)E(Y)\),因此 \(D(\sum_{i}X_i)=\sum_i D(X_i)+2\sum_{i<j}\mathrm{Cov}(X_i,X_j)\)。定义相关系数 \(\rho_{X,Y}=\mathrm{Cov}(x,y)/\sqrt{D(X)D(Y)}\)。
协方差是双线性函数,相关系数就是 \(X,Y\) 标准化后的协方差。
例:证明 \(|\rho_{XY}|\le 1\),并且 \(|\rho_{XY}=1|\iff \exists a,b,c,P(aX+bY+c=0)=1\)。
解:不妨假设 \(E(X)=E(Y)=0\),根据柯西不等式
\[\rho_{XY}^2=\frac{E(XY)^2}{E(X^2)E(Y^2)}\le 1 \]只需证 \(|\rho_{XY}=1|\to \exists a,b,P(Y=aX+b)=1\)。将 \(a\) 视为变量,则
\[E((Y-aX)^2)=a^2E(X^2)-2aE(XY)+E(Y^2) \]因为 \(\rho_{XY}=1\),所以 \(E(XY)^2=E(X^2)E(Y^2)\),所以 \(E((Y-aX)^2)=(a\sqrt{E(X^2)}-\sqrt{E(Y^2)})^2\),当 \(E(X^2)E(Y^2)\ne 0\) 时一定有零点,取该 \(a\) 即可,否则是边界情况,也是显然的。
称 \(X,Y\) 不线性相关,当且仅当下面任意一条(这三条等价)满足:
- \(\mathrm{Cov}(X,Y)=0\)
- \(E(XY)=E(X)E(Y)\)
- \(D(X+Y)=D(X)+D(Y)\)
独立则不线性相关,反之不然。对于正太分布变量,线性相关等价于不独立。
随机变量 \(X\) 的 \(k\) 阶矩为 \(E(X^k)\),中心矩为 \(E((X-E(X))^k)\)。三阶矩叫“偏度”,四阶矩叫“峰度”。\(X,Y\) 的 \(k+l\) 阶混合矩为 \(E(X^kY^l)\),中心矩为 \(E((X-E(X))^k(Y-E(Y))^l)\)。设 \(X\sim N(0,1)\),则 \(E(X^{2k})=(2k-1)\times (2k-3)\times \dots \times 1\),\(E(X^{2k-1})=0\ (k\in \Z^+)\)。
设 \(\mathbf X\) 为随机向量,则 \(B=E((\mathbf X-E(\mathbf X))(\mathbf X-E(\mathbf X))')\) 叫 \(\mathbf X\) 的协方差矩阵。
例:证明 \(B\) 一定半正定。
解:\(\forall \mathbf\alpha,\mathbf\alpha'B\mathbf\alpha=E((\mathbf \alpha,\mathbf X)^2)\ge 0\)。
给定可逆协方差矩阵 \(B\) 和向量 \(\mathbf \mu\),多元正态分布概率密度可写为
多元正态分布的边缘分布、线性组合都是正态分布,设 \(\mathbf X\sim N(\mathbf \mu,B)\),则 \(A\mathbf X+\mathbf b\sim N(A\mathbf \mu+\mathbf b,ABA')\)。若 \(B=E\),则称为 \(n\) 维标准正态分布。所有多元正态分布都是标准正态分布的线性组合:任意半正定矩阵 \(B\) 都可以写成 \(B=AA'\) 的形式,故 \(\mathbf X\sim N(\mathbf \mu,B)\) 说明 \(\mathbf X=A\mathbf Z+\mathbf \mu\),其中 \(Z\) 服从 \(n\) 维标准正态分布。换句话说,多元正态分布总能通过合理线性组合变独立,这有时方便计算。
例:设 \((X_1,X_2)\sim N(0,0,1,1,1/2)\)。求 \(E(X_1^2X_2^2)\)。
解:先求 \(a\) 使得 \(X_1-aX_2\) 与 \(X_2\) 独立,根据正态分布的性质,只需 \(\mathrm{Cov}(X_1-aX_2,X_2)=0\),也即 \(\mathrm{Cov}(X_1,X_2)-aD(X_2)=0\),得 \(a=\frac 12\)。令 \(Z=X_1-aX_2\),则 \(D(Z)=3/4\),故 \(Z\sim N(0,3/4)\)。因此
\[\begin{aligned} E(X_1^2X_2^2)&=E(Z^2X_2^2+ZX_2^3+X_2^4/4)\\ &=E(Z^2)E(X_2^2)+E(Z)E(X_2^3)+E(X_2^4)/4\\ &=3/2 \end{aligned} \]
第五章
特征函数
对于随机变量 \(X\),令 \(\mathbb R\to \mathbb C\) 的函数 \(\psi_X(t)=E(e^{itX})\) 为其特征函数。
常见分布特征函数:
- 退化分布 \(P(X=x)=1\),\(\psi_X(t)=e^{itx}\)。
- \(X\sim \pi(\lambda)\to \psi_X(t)=e^{\lambda(e^{it}-1)}\)
- \(X\sim N(0,1)\to \psi_X(t)=e^{-t^2/2}\)
特征函数的性质:
- \(aX+b\) 特征函数为 \(\psi(t)=e^{itb}\psi_X(at)\)
- 若 \(X_i\) 相互独立,则 \(\sum X_i\) 特征函数为 \(\psi(t)=\prod_i\psi_{X_i}(t)\)
- 若 \(X\) 存在 \(k\) 阶矩,则 \(E(X^k)=(-i)^k\psi_X^{(k)}(0)\)
唯一性定理:随机变量的分布函数由特征函数唯一决定。
大数定律
定义
设随机变量 \(X\) 和一列随机变量 \(X_i\) 满足
则称 \(X_n\) 依概率收敛于 \(X\),记作 \(X_n\stackrel{P}{\rightarrow}X\ (n\to \infty)\)。若 \(X_n\stackrel{P}{\rightarrow}X,Y_n\stackrel{P}{\rightarrow}Y\),\(g\) 连续,则 \(g(X_n,Y_n)\stackrel{P}{\rightarrow} g(X,Y)\)。
设一列随机变量 \(X_i\) 和一列固定常数 \(a_i\) 满足
则称 \(X_i\) 服从大数定律。
例:设 \(X_i\) 两两独立,都服从柯西分布(密度 \(f(x)=\frac{1}{\pi(1+x^2)}\))。证明不存在常数 \(c\) 使得 \(\frac 1n\sum_{i=1}^nX_i\stackrel{P}{\rightarrow} c\)。
解:容易算得 \(\frac 1n\sum_{i=1}^nX_i\) 也服从柯西分布,故显然不能依概率收敛到常数。
设随机变量 \(X\) 和一列随机变量 \(X_i\) 满足
则称 \(X_n\) 几乎必然收敛于 \(X\),记作 \(X_n\stackrel{a.s.}{\rightarrow}X\ (n\to \infty)\)。
令 \(A_n(\epsilon)=\{|X_n-X|\ge \epsilon\}\),则几乎必然收敛的定义等价于 \(\forall \epsilon>0,\lim_{n\to \infty}P(\lor_{m=n}^{\infty}A_m(\epsilon))=0\)。而依概率收敛的定义等价于 \(\forall \epsilon>0,\lim_{n\to \infty}P(A_n(\epsilon))=0\)。两者区别类似于,后者只要求某个序列 \(\to 0\),而前者要求这个序列后缀和也 \(\to 0\)。所以几乎必然收敛则一定依概率收敛(可以用定义验证),反之不然。例如,\(X_n\sim B(1,1/n)\) 且相互独立,则 \(X_n\stackrel{P}{\rightarrow}B(1,0)\),但列式即知 \(X_n\) 不几乎必然收敛于 \(B(1,0)\)。
设分布函数为 \(F_X(x)\) 的随机变量 \(X\) 和一列分布函数为 \(F_{X_i}(x)\) 的随机变量 \(X_i\) 满足,若 \(F_X(x)\) 在 \(x_0\) 处连续,则
则称 \(F_{X_i}(x)\) 弱收敛于 \(F_X(x)\),\(X_i\) 依分布收敛于 \(X\),记作 \(X_n\stackrel{d}{\rightarrow}X\ (n\to \infty)\)。
依概率收敛则依分布收敛,反之不然,因为分布相同具体取值可以不同。若收敛到常数,则依分布收敛等价于依概率收敛。
连续性定理:\(F_{X_i}(x)\) 弱收敛于 \(F_X(x)\) 等价于特征函数 \(\psi_{X_i}(x)\) 逐点收敛于 \(\psi_X(t)\)。
几个不等式
马尔科夫不等式:设 \(E(|X|^k)\) 存在,则对于 \(\epsilon>0\), \(P(|X|\ge \epsilon)\le E(|X|^k)/\epsilon^k\)。
切比雪夫不等式:设 \(E(X),D(X)\) 存在,则对于 \(\epsilon>0\), \(P(|X-E(X)|\ge \epsilon)\le D(X)/\epsilon^2\)。
Hoeffding 不等式:设 \(X\in [a,b]\) 且 \(E(X)\) 存在,则对于 \(\epsilon>0\),\(P(X-E(X)\ge \epsilon)\le \exp(-2\epsilon^2/(b-a)^2)\),\(P(X-E(X)\le -\epsilon)\le \exp(-2\epsilon^2/(b-a)^2)\)。
证明:将第一个不等式中 \(X\to -X\) 即得到第二个不等式,下面只证第一个。不妨假设 \(E(X)=0\)。取 \(t>0\),则 \(P(X\ge \epsilon)\le e^{-t\epsilon} E(e^{tX})\)。
由于 \(X\in [a,b]\),所以由 \(e^{tx}\) 凸性得 \(E(e^{tX})\le \frac{bE(e^{ta})-aE(e^{tb})}{b-a}\)。定义 \(\varphi(t)=\ln \frac{bE(e^{ta})-aE(e^{tb})}{b-a}\),对其求导可知 \(\varphi(0)=0,\varphi'(0)=0,\varphi''(t)\le (b-a)^2/4\)。因此由带拉格朗日余项泰勒展开知 \(\varphi(t)\le t^2(b-a)^2/8\)。因此 \(E(e^{tX}\le \exp(t^2(b-a)^2/8))\)。因此上式 \(\le e^{t^2(b-a)^2/8-t\epsilon}\),取 \(t=4\epsilon/(b-a)^2\) 即得。
弱大数定律
依概率收敛下的大数定理为弱大数定律。
- 切比雪夫大数定律:设 \(X_i\) 两两独立(注意不用相互独立),\(X_i\) 方差有界 \(M\),则 \(\sum_{i\le n}X_i/n\stackrel{P}{\rightarrow}\sum_{i\le n}E(X_i)/n\)。
证明:根据切比雪夫不等式,\[\begin{aligned} P\left(\left|\frac 1n\sum_{i\le n}X_i-\frac 1n\sum_{i\le n}E(X_i)\right|\ge \epsilon\right)&\le \frac{D\left(\frac 1n\sum_{i\le n}X_i\right)}{\epsilon^2}\\ &=\frac{\sum_{i=1}^n D(X_i)}{n^2\epsilon^2}\\ &\le \frac{M}{n\epsilon^2}\\ &\to 0 \end{aligned} \] - 马尔可夫大数定律:设 \(X_i\) 满足 \(\lim_{n\to \infty} \frac 1{n^2}\sum_{i=1}^n D(X_i)=0\),则 \(\sum_{i\le n}X_i/n\stackrel{P}{\rightarrow}\sum_{i\le n}E(X_i)/n\)。
证明:同上。切比雪夫不等式就是用两两独立和方差有界保证了要求的极限为 0。 - 辛钦大数定律:设 \(X_i\) 相互独立同分布,存在期望 \(\mu=E(X_i)\),则 \(\sum_{i\le n}X_i/n\stackrel{P}{\rightarrow}\mu\)。
证明:由题可知 \(X_i\) 特征函数存在导数且 \(\psi_{X_i}(t)=\psi_{X_i}(0)+\psi'_{X_i}(t)+o(t)=1+i\mu t+o(t)\)。令 \(A_n=\sum_{i\le n}X_i/n\),则 \(\psi_{A_n}(t)=\prod_{k=1}^n \psi_{X_k}(t/n)=(1+i\mu t/n+o(t/n))^n\)。令 \(n\to \infty\) 得 \(\psi_{A_n}(t)\to e^{it\mu}\),此即为退化分布 \(X=\mu\) 特征函数。根据连续性定理,\(A_n\stackrel{d}{\rightarrow}\mu\),而依分布收敛于常数等价于依概率收敛于常数,证毕。
强大数定律
几乎必然收敛下的大数定理为强大数定律。
- 四阶矩有界的强大数定律:设 \(X_i\) 相互独立,存在期望、四阶矩,四阶矩有界 \(M\)。记 \(S_n=\sum_{i\le n}X_i\),则 \((S_n-E(S_n))/n\stackrel{a.s.}{\rightarrow}0\)。
证明:不妨设 \(E(X_i)=0\)。记 \(A_n=\{|S_n/n|\ge \epsilon\}\),只需验证 \(P(\lor_{m=n}^{\infty}A_m)\to 0\)。由马尔可夫不等式\[\begin{aligned} P(\lor_{m=n}^{\infty}A_m)&\le \sum_{m=n}^{\infty}P(A_m)\\ &\le \sum_{m=n}^{\infty}\frac{E(S_m^4)}{m^4\epsilon^4} \end{aligned} \]注意到 \(E(S_m^4)=\sum_{i,j,k,l\le m}E(X_iX_jX_kX_l)\)。若 \(X_i,X_j,X_k,X_l\) 中有只出现一次的,则根据独立性期望为 0,所以只有 \(E(X_i^4)\) 和 \(E(X_i^2X_j^2)\) 有贡献,因此\[\begin{aligned} \sum_{i,j,k,l\le m}E(X_iX_jX_kX_l)&=\sum_{i\le m}E(X_i^4)+\binom 42 \sum_{i<j\le m}E(X_i^2X_j^2)\\ &\le \sum_{i\le m}E(X_i^4)+\binom 42 \sum_{i<j\le m}\sqrt{E(X_i^4)E(X_j^4)}\\ &\le O(m^2M) \end{aligned} \]因此\[\begin{aligned} P(\lor_{m=n}^{\infty}A_m)&\le \sum_{m=n}^{\infty}\frac{O(m^2M)}{m^4\epsilon^4}\\ &=\sum_{m=n}^{\infty}O(m^{-2})\\ &\to 0 \end{aligned} \] - Kolmogorove 强大数定律:设 \(X_i\) 相互独立同分布,存在期望 \(\mu\),记 \(S_n=\sum_{i\le n}X_i\),则 \(S_n/n\stackrel{a.s.}{\rightarrow}\mu\)。
这也是最常用的强大数定律,不会证。
中心极限定理
Lindeberg-Lévy 定理:设 \(X_i\) 相互独立同分布,存在期望 \(\mu\) 方差 \(\sigma^2\),记 \(A_n=(\sum_{i=1}^n (X_i-\mu))/(\sqrt n\sigma)\),则 \(A_n\stackrel{d}{\rightarrow}N(0,1)\)。
证明:不妨假设 \(\mu=0\),根据特征函数的性质,\(\psi_{X_i}(t)=\psi_{X_i}(0)+\psi'_{X_i}(t)+\psi''_{X_i}(t)t^2/2+o(t^2)=1-\sigma^2t^2+o(t^2)\)。因此 \(\psi_{A_n}(t)=(\psi_{X_i}(t/(\sqrt n\sigma)))^n=(1-t^2/2n+o(t^2/n))^n\to e^{-t^2/2}\),此即为 \(N(0,1)\) 特征函数,由连续性定理得证。
这个定理告诉我们,对独立同分布的 \(X_i\) 以及较大的 \(n\),\(A_n=\frac 1n\sum_{i\le n}X_i\) 可以大概认为是 \(N(\mu,\sigma^2/n)\),再结合标准正态分布的分布函数表,就可以估计 \(P(A_n\in [a,b])\) 或类似概率。

浙公网安备 33010602011771号