大数定律
\(\newcommand{\F}{\mathcal{F}}\newcommand{\E}{\mathbb{E}}\)到目前为止,我们所作的只是构建“概率空间”、“随机变量”、“分布”、“期望”等概念在Kolmogorov公理体系下的数学定义。我们的讨论未曾涉及任何有关物理世界(现实)的事实。概率论只是一套数学理论,但概率论所讨论的数学定义则来源于物理世界。例如,我们会不假思索地承认“抛一枚均匀硬币,正面向上的概率是\(1/2\)”是真命题,但是这是一个经验结果,而不是概率论中的一个结论。在概率论中,我们通过把概率分布设置为\((1/2,1/2)\),建立一套概率空间,然后我们可以得出很多关于硬币的结论。这些结论可以应用到物理世界中并且能够被检验正确,因为这些结论的正确性依赖于概率论理论的正确性,以及“硬币正面向上的概率是\(1/2\)”这一经验事实。这一经验事实值得我们深入思考。假如在真空中由一台极其精确的机器来抛硬币(也即保证硬币被抛出时的初始运动状态总是完全相同),那么经典物理学会告诉我们硬币的结果是确定性的,而不是\(1/2\)的概率。但是,现实中由于人在发力时无法保证每一次施力都相同,且硬币受到空气中的气流与复杂的振动的干扰,导致抛硬币的结果变得无法预测。正是因为“抛硬币”这一物理过程具有“难以预测”的特点,所以人们喜欢把它当作一种获得“随机性”的方式。世界上各种各样的人在各种各样的地方做了许许多多次的实验,统计的结果告诉我们大约有将近一半次实验硬币正面朝上,一半次实验反面朝上。于是,人们做出“硬币正面向上的概率是\(1/2\)”这一论断,并且发现把这一论断结合概率论理论,得出的结论和现实符合得很好。
根据上面的过程,我们总结出这样一条法则:“将同一个动作重复足够多次,这一过程中某一结果出现的频率可以当作这一结果出现的‘概率’”。普通人只是把这条法则当作一种经验上的事实,但是数学家想要从数学上找到这条法则的依据。既然我们已经有了关于“概率”的严格定义,那么只需要定义清楚什么是“重复足够多次”,什么是“可以当作”,我们就可以从数学上验证这条法则。前者对应的就是分析学中的极限理论,后者对应的就是我们马上要介绍的随机变量的收敛理论。这条法则被称为“大数定律(the Law of Large Numbers, LLN)”。
让我们通过抛硬币的例子直观理解一下这条法则将会具有怎样的形式。假设每一次抛硬币有\(p\)的概率向上,\(1-p\)的概率向下(注意,这个概率是物理世界的概率,并不是实验者提前已知的)。实验者进行\(n\)次实验,第\(i\)次实验结果记为\(X_i\),其中\(X_i=1\)表示正面向上,\(X_i=0\)表示正面向下。实验者最终会计算\(\dfrac{\sum_{i\in [n]}X_i}{n}\),并把它作为“认知上”的硬币正面向上的概率。数学家想要证明,当\(n\)足够大的时候,\(\dfrac{\sum_{i\in [n]}X_i}{n}\)的值和\(p\)是“接近”的。关键在于,如何从数学上定义这种“接近”:注意到,\(\dfrac{\sum_{i\in [n]}X_i}{n}\)是一个不确定的值,它的值取决于具体的实验结果。极端一点看,“实验者进行了一亿次实验,每次实验的结果都是正面向上”这样的事也是可能发生的,只不过可能性很小。所以,\(\dfrac{\sum_{i\in [n]}X_i}{n}\)和\(p\)的“接近”也只能是“概率性”的。
上面的例子中我们研究的是“事件的概率”,而通常我们所说的“大数定律”研究的是“随机变量的期望”。这二者其实是一回事,后者是前者的推广。我们可以把“硬币正面向上”看作一个事件,也可以把硬币的结果看作一个取值为\(0\)或\(1\)的随机变量\(X\),那么“硬币正面向上的概率”就等于\(\E[X]\)。这样,大数定律就可以(不严格地)表述为:“进行\(n\)次实验,第\(i\)次实验结果记为\(X_i\),那么当\(n\)足够大时\(\dfrac{\sum_{i\in [n]}X_i}{n}\)会有很大概率‘逼近’\(\E[X]\)”。
大数定律的意义不仅在于验证了上面这条经验法则,这条定律本身也具有巨大的应用价值。一旦我们能够将这条定律形式化,并且证明其正确性,我们就有了一套严格的根据“采样(sampling)”来估计“概率”的方法,它会告诉我们我们对概率的估计有多大的可能会成功,会产生多大的偏差等等。
随机变量的收敛形式\(\newcommand{\F}{\mathcal{F}}\newcommand{\B}{\mathcal{B}}\newcommand{\Var}{\text{Var}}\newcommand{\E}{\mathbb{E}}\)
为了严格定义“接近”,我们下面介绍随机变量的收敛形式理论。
点态收敛
随机变量是概率测度空间上的可测函数,所以可以直接沿用测度论中可测函数列的点态收敛的定义,称为随机变量列点态收敛:如果\((\Omega,\F,P)\)上的随机变量\(X\)和随机变量列\(X_1,X_2,\cdots\)满足\(\forall \omega \in \Omega,\lim\limits_{n\to\infty}X_i(\omega)=X(\omega)\),就称\(\{X_i\}\)点态收敛到\(X\)。
Almost Surely 点态收敛
在概率论中,经常使用的一种收敛模式称为“almost surely点态收敛”,简记为“a.s.点态收敛”或“a.s.收敛”。其定义为:如果\((\Omega,\F,P)\)上的随机变量\(X\)和随机变量列\(X_1,X_2,\cdots\)满足\(\exists E \in \F,P(E)=1\land \forall \omega \in E,\lim\limits_{n\to\infty}X_i(\omega)=X(\omega)\),就称\(\{X_i\}\) a.s.收敛到\(X\),记为\(X_n \stackrel{a.s.}{\to} X\)。
对于a.s.收敛的随机变量列,我们可以找到一个概率测度为\(1\)的集合,这个集合上随机变量列点态收敛。换言之,这个随机变量列只在一个零测集上不收敛。当我们并不关心随机变量在这个零测集上的表现时,我们就可以用a.s.收敛来放宽点态收敛的要求。
依概率收敛
如果\((\Omega,\F,P)\)上的随机变量\(X\)和随机变量列\(X_1,X_2,\cdots\)满足\(\forall \varepsilon>0,\)\(\lim\limits_{n \to \infty}P(|X_n-X|>\varepsilon)=0\),就称\(X_n\)依概率收敛(converge in probability)到\(X\),记为\(X_n \stackrel{p}{\to} X\)。
我们需要仔细理解依概率收敛的定义。对于任意一个\(n\),\(X_n-X\)是一个\((\Omega,\F,P)\)上的随机变量,所以对于任何一个固定的正实数,\(|X_n-X|>\varepsilon\)是一个事件,\(P(|X_n-X|>\varepsilon)\)是这个事件的概率。当\(n\)变化时,概率\(P(|X_n-X|>\varepsilon)\)也随之变化。如果对于任何固定的\(\varepsilon\),这个概率当\(n\to\infty\)时都趋向\(0\),那么就称\(X_n\)依概率收敛到\(X\)。直观上,依概率收敛意味着当\(n\)充分大时,\(X_n\)和\(X\)只在一个很小的样本集上有超过\(\varepsilon\)的偏差,这个样本集的测度随着\(n\)的增大而趋向0,同时\(\varepsilon\)还可以是任意小的。那么,依概率收敛和almost surely点态收敛是否是不同的收敛模式呢?我们需要用数学语言来证明。
下面证明,对于\((\Omega,\F,P)\)上的随机变量\(X\)和随机变量列\(X_1,X_2,\cdots\),如果\(X_n \stackrel{a.s.}{\to} X\),那么一定有\(X_n \stackrel{p}{\to} X\)。证明:根据\(X_n \stackrel{a.s.}{\to} X\),所以存在\(E\in \F\)使得\(P(E)=1\),\(\forall \omega\in E,\lim\limits_{n\to\infty}X_n(\omega)=X(\omega)\)。其中,\(\lim\limits_{n\to\infty}X_n(\omega)=X(\omega)\)当且仅当\(\lim\limits_{n\to\infty}|X_n(\omega)-X(\omega)|=0\)。因为\(|X_n(\omega)-X(\omega)|\)是非负数列,所以其极限为\(0\)当且仅当其上极限为0,也即\(\lim\limits_{n\to\infty}\sup\limits_{k\geq n}|X_k(\omega)-X(\omega)|=0\)。设\(Z_n=\sup\limits_{k\geq n}|X_k(\omega)-X(\omega)|\)(这也是一个随机变量),那么我们有\(\forall \omega\in E,\lim\limits_{n\to\infty}Z_n(\omega)=0\)。于是对于任意\(\varepsilon>0\),设\(\Gamma_n:=\{Z_n\geq \varepsilon\}\),那么\(\forall \omega \in \bigcap\limits_{n\in \N}\Gamma_n\),有\(\lim\limits_{n\to\infty}Z_n(\omega)\geq \varepsilon\),因此\(\omega\not\in E\)。可见\(\bigcap\limits_{n\in \N}\Gamma_n\subseteq \Omega\setminus E\)。由此可得\(P(\bigcap\limits_{n\in \N}\Gamma_n)=0\)。由概率测度的连续性可知\(\lim\limits_{n\to\infty}P(\Gamma_n)=0\)。也即\(\lim\limits_{n\to\infty}P(Z_n\geq \varepsilon)=0\)。也即\(\lim\limits_{n\to\infty}P(\sup\limits_{k\geq n}|X_k(\omega)-X(\omega)|\geq \varepsilon)=0\)。这意味着\(\lim\limits_{n\to\infty}P(|X_n(\omega)-X(\omega)|\geq \varepsilon)=0\),也即\(X_n \stackrel{p}{\to} X\)。证毕。
下面证明,存在\((\Omega,\F,P)\)上的随机变量\(X\)和随机变量列\(X_1,X_2,\cdots\),\(X_n \stackrel{p}{\to} X\)成立,而\(X_n \stackrel{a.s.}{\to} X\)不成立。反例:令\(\Omega=[0,1],\F=\B([0,1]),P\)为勒贝格测度。令\(X\)为全零函数。\(\forall n \geq 1\),设\(m = \lceil \log_2(n+1) \rceil - 1\),对于\(k\in [1, 2^m]\),定义\(X_n = \begin{cases} 1, & \omega \in [(k-1)\cdot 2^{-m}, k\cdot 2^{-m}) \\ 0, & \text{otherwise}. \end{cases}\)。例如,\(X_1=\mathbb{1}[\omega\in[0,1)]\),\(X_2=\mathbb{1}[\omega\in[0,1/2)]\),\(X_3=\mathbb{1}[\omega\in[1/2,1)]\),\(X_4=\mathbb{1}[\omega\in[0,1/4)]\),\(X_5=\mathbb{1}[\omega\in[1/4,1/2)]\),\(X_6=\mathbb{1}[\omega\in[1/2,3/4)]\),\(X_7=\mathbb{1}[\omega\in[3/4,1)]\),\(X_8=\mathbb{1}[\omega\in[0,1/8)],\cdots\),依次类推。于是,我们发现对于任意\(\omega\in [0,1)\),\(X_n(\omega)\)都是不收敛的,因为区间会“无穷次”扫过\(\omega\)所在的位置。
上面的这个反例直观地展现出a.s.点态收敛和依概率收敛的区别:a.s.点态收敛是说,取定一组测度为\(1\)的样本点,在这组固定的样本点上随着\(n\)的增大,\(X_n\)在每一个样本点上都趋向\(X\);依概率收敛是说,随着\(n\)的增大,\(X_n\)趋向\(X\)的样本点集合的测度趋向\(1\),但是这个样本点集合可能是在变化的过程中保持总测度为\(1\),而无法保证在每个固定点上随机变量收敛。
依\(L^p\)收敛
对于正整数\(p\),如果\((\Omega,\F,P)\)上的随机变量\(X\)和随机变量列\(X_1,X_2,\cdots\)满足\(\lim\limits_{n \to \infty}\E[|X_n-X|^p]=0\),就称\(X _n\)依\(L^p\)收敛到\(X\)(converge in \(L^p\)),记为\(X_n \stackrel{L^p}{\to} X\)。
这里的L是Lebesgue的缩写。事实上,测度论中有专门的对“\(L^p\)空间”的讨论,这里不详细展开。
下面证明,若\(q>p\),则\(X_n \stackrel{L^q}{\to} X\)可以推出\(X_n \stackrel{L^p}{\to} X\)。\(\E[|X_n-X|^p]=\)\(\E[(|X_n-X|^q)^{\frac{p}{q}}]\)。因为\(y=x^{\frac{p}{q}}\)是上凸函数,所以\(\E[(|X_n-X|^q)^{\frac{p}{q}}]\leq \E[(|X_n-X|^q)]^{\frac{p}{q}}\)。所以\(\lim\limits_{n\to\infty}\E[|X_n-X|^p]\leq \lim\limits_{n\to\infty}\E[|X_n-X|^q]^{\frac{p}{q}}\)。因为\(X_n \stackrel{L^q}{\to} X\),所以\(\lim\limits_{n\to\infty}\E[|X_n-X|^q]^{\frac{p}{q}}=0\)。于是\(\lim\limits_{n\to\infty}\E[|X_n-X|^p]=0\)。证毕。
若\(q>p\),则\(X_n \stackrel{L^p}{\to} X\)不能推出\(X_n \stackrel{L^q}{\to} X\)。反例:\(([0,1],\B([0,1]),P)\),其中\(P\)是勒贝格测度。令\(X_n=n^{1/q} \cdot \mathbb{1}_{[\frac{1}{n},\frac{2}{n}]}\),\(X\)是全零函数。于是,\(\E[|X_n-X|^p]=\E[X_n^p]=\)\(n^{p/q}\cdot (1/n)=n^{p/q-1}\)。所以\(\lim\limits_{n\to\infty}\E[|X_n-X|^p]=\lim\limits_{n\to\infty}n^{p/q-1}=0\)。但是\(\E[|X_n-X|^q]=\E[X_n^q]=(n^{1/q})^q\cdot 1/n=1\),可见\(X_n \stackrel{L^q}{\to} X\)不成立。
下面证明,\(X_n \stackrel{L^1}{\to} X\)可以推出\(X_n \stackrel{p}{\to} X\)。根据\(\lim\limits_{n \to \infty}\E[|X_n-X|]=0\),所以\(\forall \varepsilon>0\),\(\exists N>0,\forall n>N,\E[|X_n-X|]<\varepsilon\)。由Markov不等式,\(P(|X_n-X|>\varepsilon)\leq\dfrac{\E[|X_n-X|]}{\varepsilon}\)。因此对于任意固定的\(\varepsilon\),\(\lim\limits_{n\to\infty}P(|X_n-X|>\varepsilon)\leq\lim\limits_{n\to\infty}\dfrac{\E[|X_n-X|]}{\varepsilon}=\dfrac{\lim\limits_{n\to\infty}\E[|X_n-X|]}{\varepsilon}=0\)。综上我们得到了\(\forall \varepsilon>0\),\(\lim\limits_{n\to\infty}P(|X_n-X|>\varepsilon)=0\)。证毕。
\(X_n \stackrel{p}{\to} X\)不能推出\(X_n \stackrel{L^1}{\to} X\)。反例:\(([0,1],\B([0,1]),P)\),其中\(P\)是勒贝格测度。令\(X_n=n \cdot \mathbb{1}_{[\frac{1}{n},\frac{2}{n}]}\),\(X\)是全零函数。\(\forall \varepsilon>0\),对于\(\forall n\in \N\),\(P(|X_n-X|>\varepsilon)=1/n\),因此\(\lim\limits_{n\to\infty}P(|X_n-X|>\varepsilon)=0\),可见\(X_n \stackrel{p}{\to} X\)。但是\(\E[|X_n-X|]=\E[X_n]=1\),因此\(\lim\limits_{n \to \infty}\E[|X_n-X|^p]\neq 0\),可见\(X_n \stackrel{L^1}{\to} X\)不成立。
一般而言,\(X_n \stackrel{a.s.}{\to} X\)与\(X_n \stackrel{L^1}{\to} X\)的关系是不可比较的。左推右的反例:\(X_n=n \cdot \mathbb{1}_{[\frac{1}{n},\frac{2}{n}]}\),\(X\equiv 0\),其中\(\E[|X_n-X|]=\E[X_n]=1\)。右推左的反例:\(X_n = \begin{cases} 1, & \omega \in [(k-1)\cdot 2^{-m}, k\cdot 2^{-m}) \\ 0, & \text{otherwise}. \end{cases}\),其中\(\E[|X_n-X|]=\E[X_n]=2^{-m}\to 0\),但是\(X_n\)在任何一点处都不收敛。
下面我们证明,如果\(X_n \stackrel{a.s.}{\to} X\),且存在一个随机变量\(Y\)满足\(\E[Y]<\infty\),且可以找到一个测度为1的集合使得在这个集合上\(\forall n,|X_n|\leq Y\)处处成立(也即满足“控制收敛定理”的条件,那么可以推出\(X_n \stackrel{L^1}{\to} X\)。根据控制收敛定理,\(\lim\limits_{n\to\infty}\E[X_n]=\E[\lim\limits_{n\to\infty}X_n]=\E[X]\)。而\(X_n-X\)又可以被随机变量\(2Y\)控制,所以再次由控制收敛定理\(\lim\limits_{n\to\infty}\E[X_n-X]=\E[\lim\limits_{n\to\infty}X_n-X]=\E[\lim\limits_{n\to\infty}X_n]-\E[X]=0\),因此\(\lim\limits_{n\to\infty}\E[|X_n-X|]=0\),所以\(X_n \stackrel{L^1}{\to} X\)成立。
依分布收敛
设\(X\)的累积分布函数为\(F(x)\),\(X_n\)的累积分布函数为\(F_n(x)\)。如果在\(F\)的任意一个连续点\(x\)上都有\(\lim\limits_{n \to \infty}F_n(x)=F(x)\),就称依分布收敛(converge in distribution)到\(X\),记为\(X_n \stackrel{d}{\to} x\)。
和前几类收敛形式不同,依分布收敛并不要求\(X\)与各个\(X_n\)是基于同一个概率空间\((\Omega,\F,P)\)的,而是抛开概率空间,仅考虑其分布函数的性质。
下面证明,\(X_n \stackrel{p}{\to} X\)可以推出\(X_n \stackrel{d}{\to} X\)。对于同一概率空间上的任意两个随机变量\(A,B\),如果已知事件\(A\leq x\)发生,那么取定一个\(\varepsilon>0\),此时要么\(|A-B|>\varepsilon\),要么\(B\leq a+\varepsilon\)。所以总是成立\(P(A\leq a)\leq P(|A-B|>\varepsilon)+P(B\leq a+\varepsilon)\)。那么,对于\(X_n \stackrel{p}{\to} X\)所在的概率空间\((\Omega,\F,P)\),我们有\(P(X_n\leq a)\leq\)\(P(|X_n-X|>\varepsilon)+\)\(P(X\leq a+\varepsilon)\)。又有\(P(X\leq a-\varepsilon)\leq P(|X-X_n|>\varepsilon)+\)\(P(X_n\leq a)\)。所以\(P(X\leq a-\varepsilon)-P(|X-X_n|>\varepsilon)\leq P(X_n\leq a)\leq P(|X-X_n|>\varepsilon)+P(X\leq a+\varepsilon)\)。因为\(X_n \stackrel{p}{\to} X\),所以\(\lim\limits_{n\to\infty}P(|X-X_n|>\varepsilon)=0\)。所以在上式中两边同时令\(n\to\infty\),可得\(\lim\limits_{n\to\infty}P(X\leq a-\varepsilon)\leq\lim\limits_{n\to\infty}P(X_n\leq a)\leq\lim\limits_{n\to\infty}P(X\leq a+\varepsilon)\)。再同时令\(\varepsilon\to 0\),可得\(\lim\limits_{n\to\infty}P(X\leq a)\leq\lim\limits_{n\to\infty}P(X_n\leq a)\leq\lim\limits_{n\to\infty}P(X\leq a)\)。由夹逼准则可得\(\lim\limits_{n\to\infty}P(X_n\leq a)=P(X\leq a)\)。所以\(X_n \stackrel{d}{\to} X\),证毕。
显然,\(X_n \stackrel{d }{\to} X\)不能推出\(X_n \stackrel{p}{\to} X\)。只需取\((\{0,1\},\sigma(\{0,1\}),(1/2,1/2))\),令\(X_n(0)=0,X_n(1)=1,X(0)=1,X(1)=0\),那么\(X_n \stackrel{d }{\to} X\),但是\(P(|X_n-X|>\varepsilon)=1\),可见\(X_n \stackrel{p}{\to} X\)不成立。
各种收敛形式的强弱关系
把我们上面得到的各种收敛形式的强弱关系画出来,得到:
Borel-Cantelli Lemma
在测度空间\((\Omega,\F,P)\)上,对于一列事件\(E_1,E_2,\cdots\),如果\(\sum\limits_{n=1}^{\infty}P(E_n)<\infty\),那么有\(P(\overline{\lim}\limits_{n\to\infty}E_n)=0\)。这个定理称为Borel-Cantelli第一引理。
关于集合列的上下极限的定义,见测度一文。
证明:\(P(\overline{\lim}\limits_{n\to\infty}E_n)=P(\bigcap\limits_{n=1}^{\infty}\bigcup\limits_{k=n}^{\infty}E_k)=P(\lim\limits_{n\to\infty}\bigcup\limits_{k=n}^{\infty}E_k)\),由测度的连续性,这就等于\(\lim\limits_{n\to\infty}P(\bigcup\limits_{k=n}^{\infty}E_k)\leq\lim\limits_{n\to\infty}\sum\limits_{k=n}^{\infty}P(E_k)\)。\(\forall N\in \N\),\(\sum\limits_{n=1}^{\infty}P(E_n)=\sum\limits_{n=1}^{N}P(E_n)+\)\(\sum\limits_{n=N+1}^{\infty}P(E_n)\),两边同时令\(N\to\infty\),可得\(\sum\limits_{n=1}^{\infty}P(E_n)=\sum\limits_{n=1}^{\infty}P(E_n)+\)\(\lim\limits_{n\to\infty}\sum\limits_{k=n}^{\infty}P(E_n)\),由\(\sum\limits_{n=1}^{\infty}P(E_n)<\infty\)可得\(\lim\limits_{n\to\infty}\sum\limits_{k=n}^{\infty}P(E_k)=0\)。因此\(P(\overline{\lim}\limits_{n\to\infty}E_n)=0\)。
\(\overline{\lim}\limits_{n\to\infty}E_n\)中的元素是那些在\(\{E_n\}\)中出现无数次的元素。Borel-Cantelli第一引理告诉我们,只要\(\sum\limits_{n=1}^{\infty}P(E_n)<\infty\),那么“几乎”所有元素都只在\(\{E_n\}\)出现有限次。
Borel-Cantelli第一引理的逆命题并不成立。如果\(P(\overline{\lim}\limits_{n\to\infty}E_n)=0\),并不能推出\(\sum\limits_{n=1}^{\infty}P(E_n)<\infty\)。反例:令\(E_n=[0,1/n]\),那么\(\overline{\lim}\limits_{n\to\infty}E_n=\{0\}\),可见\(P(\overline{\lim}\limits_{n\to\infty}E_n)=0\)。但是\(\sum\limits_{n=1}^{\infty}P(E_n)=\sum\limits_{n=1}^{\infty}\dfrac{1}{n}=\infty\)。
如果事件序列\(\{E_n\}\)满足mutually independent,那么Borel-Cantelli第一引理的逆命题成立,这称为Borel-Cantelli第二引理:在测度空间\((\Omega,\F,P)\)上,对于一列mutually independent的事件\(E_1,E_2,\cdots\),如果\(P(\overline{\lim}\limits_{n\to\infty}E_n)=0\),那么\(\sum\limits_{n=1}^{\infty}P(E_n)<\infty\)。
我们证明其逆否命题:如果\(\sum\limits_{n=1}^{\infty}P(E_n)=\infty\),那么有\(P(\overline{\lim}\limits_{n\to\infty}E_n)>0\)。事实上,我们可以得到更强的结论\(P(\overline{\lim}\limits_{n\to\infty}E_n)=1\)。根据De-Morgen律,\(\overline{\lim}\limits_{n\to\infty}E_n=\bigcap\limits_{n=1}^{\infty}\bigcup\limits_{k=n}^{\infty}E_k=\bigcap\limits_{n=1}^{\infty}\left(\bigcap\limits_{k=n}^{\infty}E_k^C\right)^C=\left(\bigcup\limits_{n=1}^{\infty}\bigcap\limits_{k=n}^{\infty}E_k^C\right)^C=\left(\varliminf\limits_{n\to\infty}E_n^C\right)^C\)。所以\(P(\overline{\lim}\limits_{n\to\infty}E_n)=1-P(\varliminf\limits_{n\to\infty}E_n^C)=1-P(\lim\limits_{n\to\infty}\bigcap\limits_{k=n}^{\infty}E_k^C)=1-\lim\limits_{n\to\infty}P(\bigcap\limits_{k=n}^{\infty}E_k^C)\),由独立性可得\(P(\bigcap\limits_{k=n}^{\infty}E_k^C)=\prod\limits_{k=n}^{\infty}P(E_k^C)=\prod\limits_{k=n}^{\infty}(1-P(E_k))\)。于是\(P(\overline{\lim}\limits_{n\to\infty}E_n)=1-\lim\limits_{n\to\infty}\prod\limits_{k=n}^{\infty}(1-P(E_k))\),根据不等式\(1-x\leq e^{-x}\),我们有\(P(\overline{\lim}\limits_{n\to\infty}E_n)\geq 1-\lim\limits_{n\to\infty}\prod\limits_{k=n}^{\infty}(e^{-P(E_k)})=1-\lim\limits_{n\to\infty}e^{-\sum\limits_{k=n}^{\infty}P(E_k)}=1-e^{-\lim\limits_{n\to\infty}\sum\limits_{k=n}^{\infty}P(E_k)}\)。因为\(\sum\limits_{n=1}^{\infty}P(E_n)=\infty\),所以\(\lim\limits_{n\to\infty}\sum\limits_{k=n}^{\infty}P(E_k)=\infty\),因此\(1-e^{-\lim\limits_{n\to\infty}\sum\limits_{k=n}^{\infty}P(E_k)}=1\)。综上,\(P(\overline{\lim}\limits_{n\to\infty}E_n)=1\),证毕。
由Borel-Cantelli第一引理和第二引理,我们得知:如果\(\{E_n\}\)是mutually independent的,那么\(\sum\limits_{n=1}^{\infty}P(E_n)<\infty\implies P(\overline{\lim}\limits_{n\to\infty}E_n)=0\),\(\sum\limits_{n=1}^{\infty}P(E_n)=\infty\implies P(\overline{\lim}\limits_{n\to\infty}E_n)=1\)。可见任何时候,\(P(\overline{\lim}\limits_{n\to\infty}E_n)\)都只有\(0\)和\(1\)两种取值。这种0-1特性在概率论中经常出现,我们将会看到这是Kolmogorov 0-1 Law的一个特例。
根据Borel-Cantelli引理,我们可以证明:如果一列随机变量\(X_n\)依概率收敛到\(X\),那么存在\(X_n\)的一个子列\(X_{m_k}\),使得\(X_{m_k}\) a.s.点态收敛到\(X\)。\(\forall k\in \N\),由\(X_n\stackrel{p}{\to}X\),我们可以选取一个足够大的\(m_k\)使得\(P(|X_{m_k}-X|>\dfrac{1}{k})<\dfrac{1}{2^k}\)。我们要求随着\(k\)增大,每次选取的\(m_k\)依次增大,这样我们就得到了一个子列\(X_{m_k}\)。令\(E_k=\{\omega\in \Omega\mid |X_{m_k}(\omega)-X(\omega)|>\dfrac{1}{k}\}\),这样就有\(\sum\limits_{k\geq 1}P(E_k)<\sum\limits_{k \geq 1}\dfrac{1}{2^k}<\infty\),于是由Borel-Cantelli引理可知\(P(\varlimsup\limits_{E\to\infty} A_k)=0\)。也即,满足“存在无穷个\(k\in \N\)使得\(|X_{m_k}(\omega)-X(\omega)|>\dfrac{1}{k}\)”的样本点的测度为0。所以“只有有限个\(k\in \N\)使得\(|X_{m_k}(\omega)-X(\omega)|>\dfrac{1}{k}\)”的样本点的测度为\(1\)。其中,“只有有限个\(k\in \N\)使得\(|X_{m_k}(\omega)-X(\omega)|>\dfrac{1}{k}\)”等价于“存在\(K>0\),使得\(\forall k>K\),\(|X_{m_k}(\omega)-X(\omega)|\leq\)\(\dfrac{1}{k}\)”,这能推出“\(\forall \varepsilon>0,\exists N,\forall n>N,|X_{m_n}(\omega)-X(\omega)|<\varepsilon\)”,也即\(\lim\limits_{n\to\infty}X_{m_n}(\omega)=X(\omega)\)。可见,使得\(X_{m_k}\)收敛的样本点的测度为\(1\),也即\(X_{m_k}\) a.s.点态收敛。
有了这个结论,我们就可以把控制收敛定理中的条件“a.s.点态收敛”放弱到“依概率收敛”:如果\(X_n\stackrel{p}{\to}X\),且存在一个随机变量\(Y\)使得\(\E[Y]<\infty\),并且对任意\(n\)以及几乎所有\(\omega\in \Omega\)满足\(|X_n(\omega)|\leq Y(\omega)\),那么\(\lim\limits_{n\to\infty}\E[X_n]=\E[X]\)。证明:反证法,假设\(\lim\limits_{n\to\infty}\E[X_n]=\E[X]\)不成立。由于\(X_n\)被\(Y\)控制,所以\(\E[X_n]\)是有界数列。根据有界数列必有收敛子列,存在\(L\in \R\)使得\(\lim\limits_{n\to\infty}\E[X_{m_k}]=L\)。显然,\(X_{m_k}\stackrel{p}{\to}X\),那么由Borel-Cantelli引理,我们可以找到子列\(X_{m_k}\)的一个子列\(X_{p_k}\),使得\(X_{p_k}\stackrel{a.s.}{\to}X\)。显然,\(\lim\limits_{k\to\infty}\E[X_{p_k}]=L\)。然而,根据“a.s.点态收敛”条件下的控制收敛定理,我们会得到\(\lim\limits_{k\to\infty}\E[X_{p_k}]=\E[X]\)的结论,这就推出了矛盾。证毕。
大数定律
强大数定理与弱大数定理
设\(X_1,\cdots,X_n,\cdots\)是相互独立且同分布(independent and identically distributed, i.i.d.)的随机变量,大数定理要描述\(\dfrac{\sum_{i \in [n]}X_i}{n}\)(记为\(\dfrac{S_n}{n}\))以何种方式收敛到\(\E[X_i]\)(记为\(\mu\))。我们已经知道随机变量的收敛是有许多不同强弱的种类的。\(\dfrac{S_n}{n} \stackrel{p}{\to} \mu\)这一事实称为弱大数定理(Weak Law of Large Numbers, WLLN),\(\dfrac{S_n}{n} \stackrel{a.s.}{\to} \mu\)这一事实称为强大数定理(Strong Law of Large Numbers, SLLN)。
我们首先在附加上二阶矩有限(\(\E[X_i^2] \leq \sigma^2\))的前提下证明弱大数定理,这只需用Markov不等式说明\(\Pr[\left|\dfrac{S_n}{n}\right|>\varepsilon]=\Pr[\left|\dfrac{S_n}{n}\right|^2>\varepsilon^2]\leq \dfrac{\E[\left(\frac{S_n}{n}\right)^2]}{\varepsilon^2}\leq\dfrac{\sigma^2}{\varepsilon^2n}\),因此\(\dfrac{S_n}{n}\)依概率收敛。在同样的前提下,为了证明强大数定理,我们也想用Markov不等式,结合\(\sum\limits_{n=1}^{\infty}\Pr[\left|\dfrac{S_n}{n}\right|>\varepsilon]<+\infty\)用Borel-Cantelli说明a.s.点态收敛,此时我们发现仅规定二阶矩有限是不够的,为此我们附加四阶矩有限的条件,用相同的方法得到证明。
现在我们要去掉二阶矩有限的条件,证明真正的弱大数定理。此时我们不再能直接运用Markov不等式了,因为二阶矩可能是无界的。这里我们要用到称为truncation(截断)的证明思路:我们把随机变量拆分成\(>M\)和\(\leq M\)两种情形,于是\(\Pr[\left|\dfrac{S_n}{n}-\mu\right|>\varepsilon]\leq \Pr[\left|\dfrac{S_{n,\leq M}}{n}-\mu\right|>\varepsilon]+\Pr[S_{n,>M}\neq 0]\)。取\(M=n\),前者我们把随机变量的取值控制在了有限范围内,后者在\(n \to \infty\)时显然趋向0,于是我们发现我们能够证明这两个概率都趋向0,这样就证明了弱大数定理。
我们暂时还不能给出强大数定理的证明。
Kolmogorov 0-1 Law
从更一般的观点来看大数定律,它其实指出了当\(n\)趋向无穷时,\(\Pr[\left|\dfrac{S_n}{n}-\mu\right|>\varepsilon]\)总为0(弱大数定理),\(\Pr[\dfrac{S_n}{n}=\mu]\)总为1(强大数定理)。在Borel-Cantelli中,我们也看到了\(\Pr[\lim\sup_n A_n]\)总是只能取0或者1。。事实上这是一个更为普遍的规律,我们能够证明一列相互独立事件的极限事件(tail event)发生的概率总是0或1的。这就是Kolmogorov 0-1 Law。
我们首先要定义什么是极限事件。为此,我们要定义关于随机变量的\(\sigma\)-algebra。对于随机变量\(X\),定义\(\sigma(X)\)为能使得\(X\)可测的最小\(\sigma\)-algebra。在定义随机变量时,我们已经要求它在所有Borel Set下的原像落在事件集里,那么我们直接取出所有这些原像\(X^{-1}(\B(\R))\),可以证明这本身就是一个\(\sigma\)-algebra,因此直接有\(\sigma(X)=X^{-1}(\B(\R))\)。我们可以这样理解“最小可测”,我们知道\(2^\Omega\)总是一个使得\(X\)可测的事件集,但有时\(X\)的特性使得它并不会用到全部这些子集,例如当\(X\)仅仅只是骰子是奇数还是偶数时,我们便无需关心\(\{1,2\},\{1,3,4,5\}\)这样的集合,而只需关心\(\{1,3,5\},\{2,4,6\}\)这两个集合。换言之,使得不同的\(X\)可测需要的其实是不同大小的\(\sigma\)-algebra,这和\(X\)本身包含的“信息”有关。如果我们关心骰子的具体取值,那么我们需要一个相对庞大的\(\sigma\)-algebra;而如果只关心骰子的奇偶,则只需要一个较小的\(\sigma\)-algebra。而一旦知道了具体取值,我们就一定知道了奇偶,因此我们说前者包含了后者的信息。\(\sigma(X)\)刻画了\(X\)包含的信息。如果\(\sigma(Y)\subseteq \sigma(X)\),说明可以用\(\sigma(X)\)来测\(Y\),也就说明\(X\)中包含比\(Y\)更多的信息。对于多个随机变量,我们定义\(\sigma(X_1,X_2)=\sigma(\sigma(X_1)\cup \sigma(X_2))\),也就是使得\(X_1,X_2\)都可测的最小\(\sigma\)-algebra。定义\(\sigma\)-algebra \(\F,\mathcal{G}\)独立当且仅当\(\forall A \in \F,B\in\mathcal{G}\)都有\(A\)与\(B\)独立,容易根据定义证明\(X \bot Y\iff \sigma(X)\bot \sigma(Y)\)。
现在我们定义极限事件。对一列相互独立的随机变量 \(X_1,X_2,\cdots\) ,定义\(\F _n=\sigma(X_1,X_2,...,X_n)\),\(\F_{\infty}=\sigma(X_1,X_2,...)\)。容易验证\(\F_\infty=\sigma(\bigcup\limits_{n\ge 1}\F_n)\) 。定义 \(\F_n^*=\sigma(X_{n+1},X_{n+2},...)\) , \(\F _{\infty}^*=\bigcap\limits_{n\ge 0}\F_n^*\) ,其中\(\F _{\infty}^*\)被称为tail algebra。任何\(\F^*_\infty\)中的事件就称为极限事件。极限事件与任意有限的\(X_n\)中的信息无关,只与极限过程中的随机变量的信息有关。
Kolmogorov 0-1 Law指出,\(\forall A\in \F _{\infty}^*,P(A)=0\) 或 \(1\)。Pf:“\(P(A)=0\)或\(1\)”可以转化为\(A\bot A\),因为\(A\bot A\)的定义恰好是\(P(A\cap A)=P(A)\cdot P(A)\),也即\(P(A)=P(A)^2\),解得\(P(A)=0或1\)。我们把所有与\(A\)独立的事件收集进集合\(\mathcal{H}\),那么只需证\(A \in \mathcal{H}\)。显然任意有限的\(\F_n\)都与\(\F^*_n\)独立(一个描述前\(n\)项的信息,一个描述\(n\)以后的信息),而\(A \in \F_n^*\),因此对任意的\(n\)总有\(F_n\in \mathcal{H}\)。也即\(\bigcup\limits_{n \geq 1}\F_n\subseteq \mathcal{H}\)。于是可以证明(从略)\(\F_\infty \in \mathcal{H}\)。而\(A \in \F_{\infty}\),因此\(A\in \mathcal{H}\),证毕。
大数定理中的\(\dfrac{S_n}{n}\)收敛就是极限事件,因为数列的收敛与任意有限项都无关。因此它要么一概率收敛,要么一概率不收敛(\(\E[X_i]\)不收敛);上极限与任意有限项无关,它也是一个极限事件,因此\(\Pr[\lim\sup_n A_n]\)只能取0或1。

浙公网安备 33010602011771号