【初等概率论】 01 - 不确定中的确定性

【本系列目录】

    01 - 不确定中的确定性

    02 - 条件概率和随机变量

    03 - 常见分布和问题举例

    04 - 数字特征

    05 - 极限定理和正态分布

    博客总目录


   经过漫长的预热,终于要开始看概率论了,心里还是比较开心的。本着把数学应用到计算机工业中的初心,将大学数学的基本学科梳理了一遍,收获却是意外的大。原本只想把基本概念回顾一遍,但一旦沾上了公理化的思想,后续的学习就没法骑马观灯似地飞奔了。但也正因放慢了脚步,才发现过去对数学的认识是一片空白的。数学的问题和方法并不属于某个独立的领域,它就是这个逻辑世界的基本问题和方法,是万物的组织形态和原理。

1. 样本空间

  概率统计可能是当今程序员认为最有用的数学了,当然这只是因为我们正好处于这个发展阶段。数学从来就是工业革命的助推器,不过不同的阶段的主角有所不同而已。现实问题永远是复杂的、甚至不确定的,数学也从来没有企图精确地描述这个世界,而永远是针对我们关心的某个侧面,提取其通用的模型。概率论也不例外,它并不是这个不确定世界的终极克星,而同样只研究那些随机现象中的确定性问题。

  首先,对随机现象的限定就要求其有“确定性”:在重复试验中要表现出稳定的统计规律。那些杂乱无章的现象,或现象中不可预见的侧面,并不属于概率论的研究的范畴。其次,讨论的问题和结论也是有明确的定义和结果的,它们同样是通过严格论证推导出来的确定性结果。能正视这个问题,才不至于把概率统计捧上天,而忽略了它的数学本质。

  以上废话只是我的个人见解,你大可认为我在虚张声势,下面我们就来好好谈谈:什么是概率?相信很多人会说是“可能性、随机性、不确定性”的度量,这个回答还是让人一头雾水:什么叫“可能性”?如何“度量”它?如果你有基本的公理思想,就不会拿出这种有循环定义之嫌的解释,严格的数学定义也从来不是一种修辞性的描述。学习如何定义概念,是数学抽象的第一步,也是后续理论的起点和根基。

  先来看看我们要讨论的对象:它是一些随机现象,即事情的结果有多种可能,究竟是哪种结果并不确定。但经验或直观又往往告诉我们:这些结果发生的“可能性”有着比较稳定的值,或者大量的试验结果会有规律性的统计结果。随机现象非常多,有些是我们直观上能理解的,比如一个质地均匀的筛子,一般认为六个面出现的可能性是一样的。还有一些却是靠着经验总结的,比如车站客流量、降水量等。但现实中任何随机现象都有着复杂的物理成因,过程中它们相互融合,根本无法精确地计算每时每刻的状态。

  幸好概率论并不关心详细的过程,也不负责解释这一切现象,它只负责用数学来描述随机现象。随机现象的成因复杂多变,很多都不是概率论的讨论范畴,但还有一些可以分解为更小的随机现象,这些现象便可以由概率论自身来解释。但是必须有大家都认同的、无异议的描述,才可以在此基础上研究一些确定性的问题。数学语言的基本元素是集合,还有其衍生出来的数、映射等常用概念,我们自然也是从集合开始定义概率。

  一个随机现象中最适合抽象成集合的是什么?当然是所有可能的随机结果。所有结果组成的集合\(\Omega\)被称为样本空间,其中的任何一个结果\(\omega\)被称为样本点。有两种样本空间经常碰到,一个是类似掷骰子的结果,样本点是有限离散的,另一种是线段、区域这样的欧几里得空间,具有连续的样本点。当然还有更复杂的情况,概率论负责将它们统一起来研究。

  定义样本空间是一切概率问题的起点,很多看似很饶人的概率题目,本质上就是因为没有正确定义样本空间。分析样本空间经常需要其它的数学知识,有些问题还很困难,后面我会举一些著名的例子。但归根到底它们与概率论的关系并不大,所以这里就不过多地讨论如何解题,而是集中在概率论本身,这其实是相对容易的事情。

2. 概率空间

  样本空间是我们的讨论对象,现在要在上面“度量可能性”,首先就要问如何度量?当样本空间有可数个(包括有限个)样本点\(\omega_1,\omega_2,\cdots\)时,问题比较简单,可以把整体概率\(1\)拆成可数个正实数\(p_1,p_2,\cdots\),然后将\(p_i\)赋给\(\omega_i\)。其中实数值\(p_i\)有直观的现实意义,它是可能性的一种度量,概率为\(0\)说明不可能发生,概率为\(1\)则说明必然会发生。如果将这个映射记作\(p(\omega)\),则有式(1)成立,这便建立起了离散概率的数学模型。

\[\sum\limits_{i=1}^{\infty}p(\omega_i)=p(\omega_1)+p(\omega_2)+\cdots=1,\;(0\leqslant p(\omega_i)\leqslant 1)\tag{1}\]

  然而对于连续的样本空间呢?将\(1\)划分给不可数个样本点存在着本质的困难。比如对于区间\([a,b]\),如果按“长度”来划分概率,每个样本点的长度其实是\(0\),但每个样本点都是可能发生的,把它定义成\(0\)又违反了直觉。即使能给每个样本点赋概率,当我们要讨论某个区间的概率时,还是无法处理不可数个数之和,这样的定义完全超出数学的处理能力(不要用积分,以后会说明)。

  但回到连续样本空间本身,我们关心的本来就不是某个样本点的概率,而是某些区间的概率。由此可见,概率不应该定义在样本点上,而是针对某些我们关心的样本点集合\(A\)。这样的集合一般称之为事件,事件\(A\)发生当且仅当某个样本点\(\omega\in A\)发生。事件便是集合,一般的集合运算对于事件也是适用的,这里不再列举那些简单的结论。

  必须再次强调,并不是所有样本点集合都适合称作事件,事件的选取既要能涵盖我们关心的所有情形,又不能超出数学处理的能力范围。我们关心一些基本事件,然后还会关心它们的逆、交、并,因此要求选取的事件集对这些运算是封闭。这样的事件集\(\mathscr{F}\)也称为事件域,它是概率论中第二个重要的概念。对于离散场景,可以把每个样本点看成一个事件。对于欧几里得空间,比较常用的是博雷尔(Borel)点集。以一维实数为例,所有半开半闭区间\([a,b)\)生成的域\(\mathscr{B}_1\)被称为一维博雷尔域,它包含了我们关心的所有实数集。

  最后一步便是在事件域上定义概率,准确地说,是定义一个从\(\mathscr{F}\)到\(\Bbb{R}\)的映射\(P(X)\),它满足以下三个必要的性质。非负性和规范性很好理解,它是概率的基本性质。概率的运算必须和集合的运算相兼容,可列可加性正是为了保证这一特征。可以由可列可加性和规范性推导出所有事件的概率,推导方法和集合的运算完全一致,这里不再赘述。再次强调,事件域的选取必须以可以定义概率为准则。

  (1)非负性

\[A\in \mathscr{F}\;\Rightarrow\;P(A)\geqslant 0\tag{2}\]

  (2)规范性

\[P(\varnothing)=0,\;P(\Omega)=1\tag{3}\]

  (3)可列可加性

\[A_i\cap A_j=\varnothing\;\Rightarrow\;P\left(\bigcup\limits_{n=1}^{\infty}A_n\right)=\sum\limits_{n=1}^{\infty}P(A_n)\tag{4}\]

  现在整理一下相关的定义,首先是不加定义的样本空间\(\Omega\),然后是选取的事件域\(\mathscr{F}\),以及其上满足条件的映射\(P\)。这就构成了一个明确且完整概率模型,一般把三元集\(\{\Omega,\mathscr{F},P\}\)称为一个概率空间。概率空间是预先定义的,它摒弃了一切具体的细节,以及所有含糊的东西,仅提取了数学所关心的部分,该模型是我们一切讨论的起点。

3. 发展简史

  当然,概率的严格定义不是从一开始就有的,人们同样经历了从具体问题到概念抽象的过程。随机事件最大的特点就是发生频率有着一定的统计规律性,偶然性背后有着必然性的一面,这是人们关注概率的起源。但在概率论发展的初期,正是微积分和正统数学大行其道的年代,加上概率一直都没有被严格定义,概率论一直都不认为是正式的数学。

  人们对随机现象认识是早就有的,对可能性的度量也在潜意识里使用着,但这些需要一个复杂问题的出现,才能推动其理论的诞生。这个复杂问题最初产生于赌博中,在17世纪,有个叫德梅尔的赌徒向帕斯卡提出了著名的“分赌注问题”,这引发了帕斯卡与费马、惠更斯的大讨论。在通信中逐渐提出了事件、概率、期望等重要概念,这标志着概率论的诞生。

  最初的概率论建立在等概率的有限离散样本空间,问题的计算一般需要组合数学的方法技巧,这也是大家熟悉的概率模型。拉普拉斯对概率的古典定义\(P(A)=\dfrac{m}{n}\)正是基于样本点个数的,这个模型一般被称为古典概型。后来人们轻易地将古典概型推广到了可数离散的场合,并对欧氏空间另外建立了一套基于空间度量的概率系统,但统一明确的概率一直没有被定义。随着研究的深入,这种仅凭直观的概率越来越满足不了研究的需要。尤其是贝特朗奇论的提出,对概率论的严谨性更是一次严重的挑战,概率论陷入停滞。

  与此同时,18世纪的众多著名数学家,已经对大数定律中心极限定理进行了深入讨论。这两个结论真正触及到了概率论的深层次机理,一度成为概率论的研究核心,也从此奠定了概率论的理论价值。但大数定律和中心极限定理的研究同样需要精确的分析学模型,这是当时所不具备的,核心问题仍没有被真正解决。

  直到进入20世纪,随着公理运动兴起,概率论终于被柯尔莫戈洛夫精确定义。随后,严谨俄罗斯学派将概率论的范围再次扩大,建立了随机过程等重要学科。而且概率论作为分析学的分支,其内涵被大大加深,概率思想成为了一个基本的数学思想,概率论从此确定了其在数学中的重要地位。概率论推动量子力学、分子遗传学等前沿学科的发展,还催生了信息论、数理统计、可靠性理论等大量应用学科的诞生。

柯尔莫戈洛夫(1903-1987)

  当学完实变函数和泛函分析,你会发现概率论模型只是其中的一个特例。首先实数集上能定义概率的事件域,其实就是所谓的可测集,在那里会讨论更复杂、更一般的事件域。而本篇博客旨在学习概率论的初等概念,因此也只在离散事件和欧氏空间两种模型中讨论。其中的主要结论其实在一般的可测集上都成立,具体的证明需要用到高级的工具,这里仅保持结论的直观性,而不加以严谨的论证。高等概率论的很多结论在实变泛函中都有一般性结论,或者可以由那里的工具直接证得,在学完实变泛函后,我再来整理高等概率论的知识。

  最后来思考几个简单的问题,好歹做几个概率题练练手嘛。

   甲、乙分别抛掷\(n+1,n\)个硬币,求甲获取的正面比乙多的概率;

   有\(n\)个编了号的球,采用有放回的摸球,求拿到的号码不降的概率;

   在一个线段上随机取两个点,求分得的三段能组成三角形的概率;

   普丰投针问题:纸上有等距\(a\)的一组平行线,在其上投掷长为\(l\)的针,求针与平行线相交的概率;

   贝特朗奇论:在单位圆中随机取一根弦,求其长度超过\(\sqrt{3}\)的概率。(至少给出三种答案)


【前序学科】 组合数学、线性代数、微积分、傅里叶分析

【参考资料】

[1] 《概率论基础(3rd)》,李贤平,2010

  国内经典的概率论入门教程,是本篇的主要参考资料。从常见的概率问题入手,逐渐引入概率论的基本概念和问题。即保持了论述的直观,又不失测度论和公理化的严谨,两者有着非常好的平衡。论述中以问题为核心,注重分析结论的本质,而非结果的堆砌。书中没有回避一些高等但很重要的概念,使得论述更加完整,而且为高等概率论做了很好的导引。

[2] 《初等概率论》,钟开莱,1980

  大师手笔,钟开莱是概率论的大家,写这样的入门书真是功德无量。全书从零开始娓娓道来,逐步解析基础概念的由来,使得任何基础的人都可以领略概率论的精髓。虽然是入门书,行文中对数学思维的剖析丝丝入扣,在严谨和易懂之间把握得十分到位。这本书对你的最大收获不应是概率论,而是数学思维清洗、整理,在直觉和形式之间找到数学研究的本质。

[3] 《概率论基础教程(8th)》,S.M. Ross,2010

  概率论基础的大众教材,所有概念都是以直观的方式表达,适合零基础的入门者,并且不会触及较深入的数学思想。行文通俗友好,大量的例子和习题,即使害怕数学的人也可能会接受。

[4] 《从博弈问题到方法论学科》,徐传胜,2010

  一本国内的概率论史书,详细介绍了概率论的发展历程,以及相关数学家的事迹。大量的历史材料和对原著的介绍,让我们看到概率论成长的轨迹,其中充满了波折。书中有很多原始问题的解决过程,从中能体会到原汁原味的“学术精神”。还有,翻完全书深深感觉到,自己的这点笔记什么都不是:)


 

posted on 2017-02-07 00:02  卞爱华  阅读(2532)  评论(0编辑  收藏  举报

导航