醉鬼的漫步-全-
醉鬼的漫步(全)
原文:The Drunkard's Walk
译者:飞龙
序言
A 几年前,一个男人凭借一张以 48 结尾的彩票赢得了西班牙国家彩票。他为自己的“成就”感到自豪,并揭示了使他致富的理论。“我连续七天梦见了数字 7,”他说,“7 乘以 7 等于 48。” ¹ 我们那些对乘法表有更好掌握的人可能会对这个人的错误嘲笑,但我们都在创造自己的世界观,然后利用它来过滤和加工我们的感知,从日常生活中冲刷过我们的大数据海洋中提取意义。而且我们经常犯错误,虽然不那么明显,但和他的错误一样重要。
早在 20 世纪 30 年代,人们就已经知道人类的直觉不适合处理不确定性的情况,当时研究人员注意到,人们既不能编出一个通过随机性数学测试的数字序列,也不能可靠地识别一个给定的字符串是否是随机生成的。在过去的几十年里,一个新的学术领域已经出现,研究人们在面对不完整或不完整信息时如何做出判断和决策。他们的研究表明,当涉及机会时,人们的思想过程往往存在严重缺陷。这项工作借鉴了许多学科,包括数学、传统科学、认知心理学、行为经济学和现代神经科学。尽管这些研究最近得到了诺贝尔经济学奖的认可,但它们的教训在很大程度上并没有从学术界渗透到大众心理。这本书的目的是纠正这一点。它讲述了支配机会的原则,这些想法的发展,以及它们如何在政治、商业、医学、经济学、体育、休闲和其他人类事务领域发挥作用。它还讲述了我们的选择方式,以及我们在面对随机性或不确定性时,如何做出错误判断和糟糕决策的过程。
缺失的信息常常会引发相互竞争的解释。这就是为什么确认全球变暖需要付出如此巨大的努力,为什么药物有时会被宣布为安全然后从市场上撤回,以及为什么并非每个人都同意我的观察,即巧克力奶昔是健康饮食中不可或缺的一部分。不幸的是,数据的误解释有许多负面后果,既有大的也有小的。例如,我们将看到,医生和患者经常误解关于药物有效性和重要医学测试意义的统计数据。父母、教师和学生误解了 SAT 等考试的真正意义,而葡萄酒鉴赏家在葡萄酒评分上也犯同样的错误。投资者从共同基金的历史表现中得出无效的结论。
在体育领域,我们已经形成了一种文化,即基于直觉的相关感,一个团队的成败往往主要归因于教练的能力。因此,当团队失败时,教练经常被解雇。然而,对所有主要体育项目的解雇进行的数学分析表明,这些解雇平均来说对团队的表现没有影响。² 在企业界也存在类似的现象,人们认为首席执行官拥有超凡的力量,可以决定一个公司的兴衰。然而,在柯达、朗讯、施乐和其他公司,这种力量一次又一次地被证明是虚幻的。例如,在 20 世纪 90 年代,当杰克·韦尔奇领导通用电气资本服务时,加里·温特被认为是有史以来最聪明的商人之一。温特利用他的声誉在接手陷入困境的金融公司康塞科时获得了 4500 万美元的奖金。投资者显然认为,有了温特掌舵,康塞科的麻烦就结束了:公司股价在一年内翻了两番。但两年后,温特突然辞职,康塞科破产,股价跌至几分钱。³ 温特的任务是否不可能完成?他是否在疏忽大意?或者他的加冕礼是否建立在有问题的假设之上——例如,认为高管几乎有绝对能力影响一个公司,或者一个人的单一过去成功是未来表现的可靠指标?在任何特定场合,如果不检查手头情况的细节,就无法对答案有信心。我将在本书的几个实例中这样做,但更重要的是,我将介绍识别偶然足迹所需的工具。
逆流而上,与人类直觉相悖是一项艰巨的任务。正如我们将看到的,人类的大脑被设计成为每个事件寻找一个明确的原因,因此很难接受无关或随机因素的影响。因此,第一步是要认识到成功或失败有时既不是源于高超的技能,也不是源于严重的无能,而是,正如经济学家阿门·阿尔钦所写,“偶然的环境”。自然中的随机过程是基本的,并且在我们日常生活中无处不在,然而,大多数人并不理解它们,也不太考虑它们。
书名《醉酒漫步》源自一个描述随机运动的数学术语,例如分子在空间中飞行时遵循的路径,它们不断地碰撞,并被其姐妹分子碰撞。这可以成为我们生活的隐喻,从大学到职业生涯,从单身生活到家庭生活,从高尔夫的第一洞到第十八洞。令人惊讶的是,用于理解醉酒漫步的工具也可以用来帮助理解日常生活中的事件。本书的目标是阐述偶然在我们周围世界中的作用,并展示我们如何认识到它在人类事务中的运作。我希望在这次对随机世界之旅结束后,你,读者,将开始以不同的眼光看待生活,对日常世界有更深刻的理解。
第一章
透过随机性的眼镜观察
**我记得,作为一个青少年,我看着安息日蜡烛的黄色火焰在它们所点燃的白色石蜡圆柱体上方随机地舞动。我年纪还小,不会觉得烛光浪漫,但仍然觉得它很神奇——因为火焰产生的闪烁图像。它们变化和变形,生长和衰落,似乎没有明显的理由或计划。我确信,火焰下面一定有韵律和理由,一些科学家可以用他们的数学方程式预测和解释的模式。“生活并不像那样,”我的父亲告诉我。“有时候会发生无法预见的事情。”他告诉我,当他被关押在布痕瓦尔德集中营,那个他被迫挨饿的纳粹集中营时,他偷了一块面包。面包师傅让盖世太保召集可能犯下罪行的人,并将嫌疑人排成一排。“谁偷了面包?”面包师傅问。当没有人回答时,他告诉守卫一个接一个地射击嫌疑人,直到他们全部死亡或有人认罪。我的父亲站出来,以免其他人受到伤害。他并没有试图把自己描绘成英雄,而是告诉我,他这么做是因为他预期无论如何都会被射击。然而,面包师傅给了我的父亲一份很好的工作,作为他的助手。“一个偶然事件,”我的父亲说。“这与你无关,但如果事情有所不同,你就永远不会出生。”那时我意识到,我应该感谢希特勒,因为德国人杀死了我的父亲妻子和两个年幼的孩子,抹去了他的前半生。如果不是因为战争,我的父亲永远不会移民到纽约,永远不会遇到我的母亲,她也是一个难民,永远不会生下我和我的两个兄弟。
我的父亲很少谈论战争。我当时没有意识到这一点,但多年以后我意识到,每当他与我们分享他的苦难时,并不是因为他想让我知道他的经历,而是因为他想传授关于生活的更广泛教训。战争是一种极端情况,但机遇在我们生活中的作用并不取决于极端。我们生活的轮廓,就像蜡烛的火焰一样,不断地被各种随机事件引导到新的方向,这些事件以及我们对它们的反应,决定了我们的命运。因此,生活既难以预测,也难以解释。就像看罗夏墨迹一样,你可能会看到圣母玛利亚和我,一只鸭嘴兽,我们在商业、法律、医学、体育、媒体或你孩子三年级的成绩单上遇到的数据可以以多种方式解读。然而,在事件中解读机遇的作用并不像解读罗夏墨迹;有正确和错误的方法来做这件事。
我们在不确定的情况下进行评估和选择时,常常使用直觉过程。无疑,在我们不得不决定剑齿虎是微笑因为它胖而快乐还是因为它饿而把我们当作下一顿饭时,这些过程在进化上具有优势。但现代世界有不同的平衡,如今这些直觉过程带来了弊端。当我们用习惯的思维方式来处理今天的“老虎”时,我们可能会做出不那么理想的甚至不协调的决定。对于那些研究大脑如何处理不确定性的人来说,这个结论并不令人惊讶:许多研究表明,我们大脑中评估偶然性情况的部分与那些处理人类通常被认为是我们的理性主要来源——我们的情感——的特征的部分密切相关。例如,功能性磁共振成像显示,风险和回报是由多巴胺能系统的部分评估的,这是一个对动机和情感过程重要的大脑奖励回路。¹ 图像还显示,杏仁核,它也与我们的情绪状态,特别是恐惧有关,在我们做出不确定性的决定时会被激活。²
人们分析涉及偶然性的情况所采用的机制是进化因素、大脑结构、个人经验、知识和情感的复杂产物。事实上,人类对不确定性的反应如此复杂,有时大脑中的不同结构会得出不同的结论,并似乎相互竞争以确定哪个将占主导地位。例如,如果你每次吃虾时,有三次脸会肿到正常大小的五倍,你大脑中的“逻辑”左半球会试图找到一种模式。另一方面,你大脑中的“直觉”右半球会简单地说“避免虾。”至少研究人员在不太痛苦的实验设置中是这样发现的。这个游戏被称为概率猜测。在这个游戏中,代替玩虾和组胺,实验对象被展示一系列卡片或灯光,这些卡片或灯光可以是两种颜色,比如绿色和红色。颜色以不同的概率出现,但除此之外没有模式。例如,在像红色-红色-绿色-红色-绿色-红色-红色-绿色-绿色-红色-红色-红色这样的序列中,红色可能出现的频率是绿色的两倍,等等。实验对象的任务是在观察一段时间后,预测序列中的每个新成员将是红色还是绿色。
游戏有两种基本策略。一种策略是总是猜测你注意到出现频率更高的颜色。这是老鼠和其他非人类动物所青睐的路线。如果你采用这种策略,你将保证一定程度的成功,但你也在承认你不会做得更好。例如,如果绿色出现 75%的时间,而你决定总是猜测绿色,你将有 75%的时间猜对。另一种策略是“匹配”你猜测绿色和红色的比例与你在过去观察到的绿色和红色的比例。如果绿色和红色以某种模式出现,而你能够找出这个模式,这种策略将使你每次都能猜对。但如果颜色随机出现,你最好坚持第一种策略。在绿色随机出现 75%的情况下,第二种策略将只在 10 次中有大约 6 次猜对。
人类通常会尝试猜测模式,在这个过程中,我们让自己被老鼠超越。但有一些人在某些类型的术后脑损伤——称为“分裂脑”——的影响下,大脑的左右半球无法相互交流。如果对这些患者进行概率实验,让他们只用左眼看到彩色光或卡片,并只用左手来表示他们的预测,这相当于对大脑右侧的实验。但如果实验仅涉及他们的右眼和右手,那么这相当于对大脑左侧的实验。当研究人员进行这些实验时,他们发现——在相同的患者中——大脑的右侧半球总是选择猜测出现频率更高的颜色,而大脑的左侧半球总是试图猜测模式。³
在面对不确定性的情况下做出明智的评估和选择是一种罕见的能力。但就像任何技能一样,它可以通过经验得到提高。在接下来的页面中,我将探讨机遇在我们周围世界中的作用,以及几个世纪以来发展出来的帮助我们理解这种作用的观点,以及常常使我们误入歧途的因素。英国哲学家和数学家伯特兰·罗素写道,
我们都始于“天真现实主义”,即事物就是它们看起来那样的教条。我们认为草是绿色的,石头是硬的,雪是冷的。但物理学告诉我们,草的绿色、石头的硬度和雪的寒冷并不是我们自己在经验中知道的草的绿色、石头的硬度和雪的寒冷,而是非常不同的东西。⁴ 在接下来的内容中,我们将通过随机性的望远镜观察生活,并发现我们生活中的许多事件,也并非如我们所见的那样,而是非常不同的。
2002 年,诺贝尔委员会将诺贝尔经济学奖授予了一位名叫丹尼尔·卡尼曼的科学家。如今,经济学家们做着各种各样的事情——他们解释为什么教师的工资这么低,为什么足球队的价值如此之高,以及为什么身体功能有助于设定养猪场规模的上限(一头猪的排泄物是人类的 3 到 5 倍,所以拥有数千头猪的农场往往产生的废物比邻近的城市还要多)。⁵ 尽管经济学家们产生了大量优秀的研究成果,但 2002 年的诺贝尔奖之所以引人注目,是因为卡尼曼并不是经济学家。他是一位心理学家,并且与已故的阿莫斯·特沃斯基一起,数十年来研究了并澄清了许多常见的谬误,这些谬误将是我在这本书中要讨论的随机性误判类型。
在理解生活中随机性作用的过程中,最大的挑战在于尽管随机性的基本原理源于日常逻辑,但许多由此原理产生的后果却证明是反直觉的。卡尼曼和特沃斯基的研究本身也是由一个随机事件激发的。在 20 世纪 60 年代中期,卡尼曼当时是希伯来大学的助理心理学教授,同意执行一项相当乏味的任务:向一群以色列空军飞行教官讲解行为修正的常规智慧及其在飞行训练心理学中的应用。卡尼曼强调,奖励积极行为是有效的,但惩罚错误则不然。他的一个学生打断了他,提出了一个观点,这个观点将引导卡尼曼产生顿悟,并指导他数十年的研究。⁶
“我经常热情地表扬那些执行得漂亮的动作,但下次他们总是做得更糟,”飞行教官说。“而且我因为动作执行得不好而大声斥责人们,但总体来说,下次他们就会有所改进。别告诉我奖励有效而惩罚无效。我的经验与此相反。”其他飞行教官也表示赞同。对卡尼曼来说,飞行教官们的经验听起来是真实的。另一方面,卡尼曼相信那些证明奖励比惩罚更有效的动物实验。他对此明显的悖论进行了深思。然后他突然想到:尖叫发生在改进之前,但与表面现象相反,它并没有导致改进。
难道会是这样吗?答案在于一个被称为均值回归的现象。也就是说,在任何一系列随机事件中,一个非凡的事件最有可能被纯粹由于偶然而发生的更普通的事件所跟随。以下是它是如何工作的:学生飞行员都有一定的个人飞行战斗机的能力。提高他们的技能水平涉及许多因素,需要大量的实践,因此尽管他们的技能通过飞行训练缓慢提高,但从一个机动到下一个机动的变化不会很明显。任何特别好的或特别差的表现大多都是运气问题。所以如果一个飞行员做出了一个异常出色的着陆——远远超出他正常的表现水平——那么他第二天表现得更接近他的平均水平——也就是更差——的可能性很大。如果他的教练表扬了他,看起来表扬并没有起到作用。但如果一个飞行员做出了一个异常糟糕的着陆——把飞机开到跑道的尽头,撞进基地食堂的玉米汤大桶里——那么他第二天表现得更接近他的平均水平——也就是更好——的可能性很大。如果他的教练有在学生表现不佳时大声喊叫“你这个笨拙的猿猴”的习惯,看起来他的批评起到了一些作用。这样就会产生一种表面上的模式:学生表现得好,表扬没有起到作用;学生表现差,教练大声将学生比作低等灵长类动物,学生改进。卡尼曼班上的教练们从这样的经历中得出结论,他们的尖叫是一种强大的教育工具。实际上,这根本没有任何区别。
这种直觉上的错误激发了卡尼曼的思考。他想知道,这样的误解是否普遍存在?我们,就像飞行教练一样,是否相信严厉的批评能改善我们孩子的行为或我们员工的绩效?面对不确定性时,我们是否还会做出其他错误的判断?卡尼曼知道,人类为了必要地简化判断任务的复杂性,会采用某些策略,而关于概率的直觉在这个过程中起着重要作用。在吃那个看起来美味的街头小贩的塞维奇托斯塔达之后,你会感到恶心吗?你并没有有意识地回忆起你光顾过的所有类似食品摊位,计算你接下来一晚喝下多少倍普克托-必思美,然后给出一个数值估计。你让你的直觉来完成这项工作。但 20 世纪 50 年代和 60 年代初的研究表明,人们在随机情况下的直觉往往会让他们失望。卡尼曼想知道,这种对不确定性的误解有多普遍?它对人类决策有什么影响?几年过去了,卡尼曼邀请了他的另一位初级教授阿莫斯·特沃斯基在他的一个研讨会上做客座讲座。后来,在午餐时,卡尼曼向特沃斯基提到了他正在形成的一些想法。在接下来的三十年里,特沃斯基和卡尼曼发现,即使在复杂的主题中,当涉及到随机过程——无论是军事或体育情况、商业困境还是医学问题——人们的信念和直觉往往让他们失望。
假设你的关于爱情、战争和全球变暖的惊悚小说的手稿被四位出版商拒绝了。你的直觉和胃里的不适感可能会告诉你,所有这些出版专家的拒绝意味着你的手稿不好。但你的直觉正确吗?你的小说是否无法销售?我们都知道,如果连续几次抛硬币都是正面,这并不意味着我们在抛一个两面都是正面的硬币。难道是出版成功如此不可预测,即使我们的小说注定要成为畅销书,也有可能许多出版商错过要点,发送那些表示感谢但拒绝的来信吗?20 世纪 50 年代有一本书被出版商拒绝,他们给出了诸如“非常乏味”、“典型的家庭争吵、琐碎的烦恼和青少年的情感的无聊记录”以及“即使这部作品在五年前[第二次世界大战]这个主题还及时的时候出现,我也看不出它会有任何机会”这样的评论。这本书是安妮·弗兰克的《一个年轻女孩的日记》,销量达到了 3000 万册,成为历史上最畅销的书籍之一。也向西尔维娅·普拉斯发出了拒绝信,因为“肯定没有足够真正的才华让我们注意到”,向乔治·奥威尔的《动物农场》发出了拒绝信,因为“在美国不可能卖动物故事”,以及向艾萨克·巴什维斯·辛格发出了拒绝信,因为“又是波兰和富有的犹太人”。在取得巨大成功之前,托尼·希勒曼的代理人抛弃了他,建议他“摆脱所有那些印第安人的东西”。⁷
那些并不是孤立的无误判断。事实上,许多注定要取得巨大成功的书籍不仅要经历拒绝,还要经历反复的拒绝。例如,今天很少有书籍被认为比约翰·格里沙姆、西奥多·吉塞尔(苏斯博士)和 J.K.罗琳的作品更具明显和普遍的吸引力。然而,他们在成名之前所写的手稿——最终都取得了巨大的成功——都遭到了反复的拒绝。约翰·格里沙姆的《杀死一只知更鸟》手稿被二十六家出版社拒绝;他的第二部手稿,《公司》,只有在好莱坞流传的非法副本吸引了 60 万美元的电影版权报价后,才引起了出版商的兴趣。苏斯博士的第一本儿童书《我在桑树街看到了它》被二十七家出版社拒绝。J.K.罗琳的第一部《哈利·波特》手稿被拒绝了九次。⁸然后是硬币的另一面——任何从事这项业务的人都知道得太清楚的一面:许多有巨大潜力的作者从未成功,约翰·格里沙姆在第一次二十次拒绝后放弃,或者 J.K.罗琳在第一次五次拒绝后放弃。在经历了许多拒绝之后,这样的作家之一,约翰·肯尼迪·图尔,失去了出版小说的希望并自杀。然而,他的母亲坚持不懈,十一年后《傻瓜联盟》出版;它赢得了普利策小说奖,并售出了近 200 万册。
在创作一部伟大的小说——或者一件珠宝或巧克力曲奇饼干——与在成千上万的零售店前堆放大量该小说——或者珠宝或曲奇饼干袋——之间存在巨大的随机性和不确定性差距。这就是为什么每个领域的成功人士几乎都是某个特定集体的成员——那些不放弃的人的集体。
我们所经历的大多数事情——无论是职业上的成功、投资还是生活中的大小决定——都是随机因素与技能、准备和辛勤工作结果一样多的结果。因此,我们所感知的现实并不是其背后的人或情况的直接反映,而是被不可预见或波动的外部力量的随机化效应所模糊的图像。这并不是说能力不重要——它是增加成功机会的因素之一——但行动与结果之间的联系并不像我们可能希望的那样直接。因此,我们的过去并不那么容易理解,我们的未来也并不那么容易预测,在这两个领域,我们都从超越表面解释中受益。
我们通常低估了随机性的影响。我们的股票经纪人建议我们投资于过去五年连续击败国内基金的拉丁美洲共同基金。我们的医生将我们甘油三酯水平的升高归因于我们每天早上在尽职尽责地给孩子们喂食芒果和无脂酸奶早餐后,享受一份好时叮当饼和牛奶的新习惯。我们可能或可能不会采纳股票经纪人或医生的建议,但很少有人质疑他们是否有足够的数据来给出建议。在政治世界、经济世界、商业世界——即使当职业和数百万美元处于危险之中时——偶然事件常常被明显地误解释为成就或失败。
好莱坞提供了一个很好的例证。好莱坞游戏的回报(和惩罚)是否应得,或者运气在票房成功(和失败)中扮演的角色是否比人们想象的更重要?我们都明白天才并不能保证成功,但认为成功必须来自天才是一种诱人的假设。然而,没有人能事先知道一部电影是否会成功或失败,这种想法至少自小说家和编剧威廉·戈尔丁在 1983 年的经典著作《银幕交易之旅》中阐述这一观点以来,在好莱坞就一直是令人不安的怀疑。在那本书中,戈尔丁引用了前电影公司高管大卫·皮克的话说:“如果我当初对那些我拒绝的项目说‘是’,对那些我接受的其他项目说‘不’,结果可能大致相同。”⁹
这并不是说一部颤抖的家用恐怖短片可以像《驱魔人:新生》那样轻易成为热门,后者据估计耗资 8000 万美元。实际上,几年前发生的事情就是如此,那就是《布莱尔女巫项目》:它仅花费了电影制作者 6 万美元,但在国内票房收入达到了 1.4 亿美元——是《驱魔人》的三倍多。然而,这并不是戈尔丁想要表达的意思。他只指的是那些制作精良、足以获得可敬发行商的认可的好莱坞电影。而且,戈尔丁并没有否认电影票房表现有原因。但他确实说,这些原因是如此复杂,从绿灯到首映周末的路径如此容易受到不可预见和不可控制的影响,以至于对未制作电影潜力的推测并不比掷硬币好多少。
好莱坞不可预测性的例子很容易找到。电影爱好者会记得,制片厂对巨亏电影《伊斯特尔》的巨大期望(沃伦·贝蒂 + 道斯汀·霍夫曼 + 5500 万美元的预算 = 1400 万美元的票房收入)和《最后的动作英雄》(阿诺德·施瓦辛格 + 8500 万美元 = 5000 万美元)。另一方面,你可能会记得环球影城的高管们对年轻导演乔治·卢卡斯的电影《美国风情画》的严重怀疑,这部电影的成本不到 100 万美元。尽管他们持怀疑态度,但这部电影仍然赚了 1.15 亿美元,但这并没有阻止他们对卢卡斯下一个想法的更严重怀疑。卢卡斯将这个故事命名为《卢克·斯塔基勒的冒险:来自“威尔斯的日志”》。环球影城认为这个故事无法制作。最终,二十世纪福克斯制作了这部电影,但该制片厂对项目的信心仅到此为止:它只支付卢卡斯 20 万美元来撰写和执导;作为交换,卢卡斯获得了续集和商品化权。最终,《星球大战》以 1300 万美元的预算赚了 4.61 亿美元,卢卡斯建立了一个帝国。
考虑到绿灯决策是在电影完成前几年做出的,而且电影在制作和营销过程中会受到许多不可预测因素的影响,更不用说观众难以捉摸的口味了,因此,Goldman 的理论并不显得过于牵强(它也得到了许多最近的经济研究的支持)。¹⁰ 尽管如此,电影公司的执行官们并不是根据那些对美国钢铁公司总裁和派拉蒙电影公司总裁同样重要的日常管理技能来评判的。相反,他们被评判的是挑选热门影片的能力。如果 Goldman 是对的,那么这种能力只是幻觉,无论他或她多么自信,任何执行官都不值得那份价值 2500 万美元的合同。
判断结果中有多少是技能的功劳,有多少是运气的恩赐,并不是一件简单的事情。随机事件往往像一盒谷物中的葡萄干一样,成群结队地出现,形成连串和集群。尽管命运在可能性上是公平的,但在结果上却并不公平。这意味着,如果 10 位好莱坞执行官每人抛 10 枚硬币,尽管每个人都有平等的机会成为赢家或输家,但最终仍然会有赢家和输家。在这个例子中,至少有 1 位执行官得分 8 个或更多正面或反面硬币的概率是 2/3。
想象一下,乔治·卢卡斯制作了一部新的《星球大战》电影,在一个测试市场进行了一次疯狂的实验。他使用两个不同的标题发布了相同的电影:星球大战:艾波 A 和 星球大战:艾波 B。每部电影都有自己的营销活动和发行计划,相应的细节完全相同,除了其中一部电影的预告片和广告说“艾波 A”,而另一部则是“艾波 B”。现在我们把它变成一场竞赛。哪部电影会更受欢迎?比如说,我们观察前 20,000 名观众,并记录他们选择观看的电影(忽略那些会去看两部电影的铁杆粉丝,然后坚持认为两者之间有细微但有意义的不同)。由于电影及其营销活动完全相同,我们可以这样数学地模拟这场游戏:想象将所有观众排成一行,然后依次为每位观众抛硬币。如果硬币正面朝上,他就看到“艾波 A”;如果硬币反面朝上,则是“艾波 B”。因为硬币以相同的机会出现任何一面,你可能会认为在这场实验性的票房战争中,每部电影大约有一半的时间会领先。但随机性的数学告诉我们并非如此:最可能的变化次数是 0,而且其中一部电影在整个 20,000 名顾客中领先的可能性是另一部电影的 88 倍。¹¹ 这个教训不是电影之间没有区别,而是即使所有电影都相同,有些电影的表现也会比其他电影更好。
这种问题在董事会会议室、好莱坞或其他地方都不会被讨论,因此典型的随机模式——明显的冷热交替或数据成簇——通常会被错误解读,更糟糕的是,人们会据此采取行动,仿佛它们代表了一种新的趋势。
现代好莱坞最引人注目的涂油和弑君案例之一是雪莉·兰辛的案例,她多年来成功领导了派拉蒙影业。¹² 在兰辛的领导下,派拉蒙赢得了《阿甘正传》、《勇敢的心》和《泰坦尼克号》的最佳影片奖,并创下了有史以来票房收入最高的两年。然而,兰辛的名声突然暴跌,在派拉蒙经历《综艺》所说的“票房长期低迷”之后,她被解雇了。¹³
用数学术语来说,对于兰辛的命运,既有简短的解释,也有详细的解释。首先,简要的回答。看看这个百分比序列:11.4,10.6,11.3,7.4,7.1,6.7。你注意到什么了吗?兰辛的老板,萨姆纳·雷德斯通,也注意到了,对他来说,这个趋势是显著的,因为这六个数字代表了兰辛任职期间派拉蒙电影集团在最后六年中的市场份额。这个趋势导致《商业周刊》猜测兰辛“可能已经不再拥有好莱坞的火爆手气”。¹⁴不久后,兰辛宣布她要离职,几个月后,一位名叫布拉德·格雷的才华经理被招募到公司。
一个稳操胜券的天才如何能在公司度过七年辉煌之后,几乎一夜之间就失败了?有许多理论解释了兰辛早期的成功。当派拉蒙表现良好时,兰辛因将其打造成好莱坞运营最好的工作室之一,以及她将传统故事转变为价值 1 亿美元票房巨作的技巧而受到赞扬。当她运气改变时,修正主义者接管了局面。她制作成功的翻拍片和续集的倾向变成了一个缺点。也许最令人痛心的说法是,她的失败是由于她的“中间派品味”。现在她被指责批准了像《时间线》和《古墓丽影:生命的摇篮》这样的票房毒药。突然之间,传统智慧认为兰辛规避风险,守旧,并且脱离了潮流。但她真的应该因为认为迈克尔·克莱顿的畅销书会成为有潜力的电影素材而受到责备吗?当第一部《古墓丽影》电影在票房上收入 1.31 亿美元时,所有那些批评《古墓丽影》的人在哪里?
即使兰辛的缺点理论是合理的,但考虑一下她的去世是如何突然发生的。她是不是一夜之间变得规避风险,脱离了现实?因为派拉蒙的市场份额突然大幅下降。一年前,兰辛春风得意;而到了第二年,她却成了深夜喜剧节目中的笑柄。如果像好莱坞的其他人一样,她因为一场糟糕的离婚诉讼而感到沮丧,或者被指控挪用公款,或者加入了一个宗教团体,她的命运变化或许还可以理解。但这并非事实。而且她的大脑皮层也没有受到任何损害。她批评者所能提供的唯一证据,实际上就是她新出现的缺点。
事后看来,很清楚的是,兰辛被解雇是因为行业对随机性的误解,而不是因为她决策失误:兰辛离开公司那年,派拉蒙公司下一年的电影已经进入制作流程。因此,如果我们想知道在某个平行宇宙中,如果兰辛继续留任,她的表现会如何,我们只需要查看她离职那一年后的数据。凭借《世界大战》和《最长的一码》等电影,派拉蒙公司度过了十年来的最佳夏季,市场份额回升至近 10%。这不仅仅具有讽刺意味——这再次体现了随机性的一个方面,即回归均值。一篇《综艺》杂志的标题对此进行了报道,称“告别礼物:旧政权的电影推动派拉蒙反弹”,¹⁵,但人们不禁会想,如果维亚康姆(派拉蒙的母公司)有更多的耐心,这个标题可能会是“辉煌的一年让派拉蒙和兰辛的事业重回正轨”。
莎莉·兰辛起初运气好,最后运气差,但情况本可能更糟。她本可以在一开始就遭遇不幸。这就是哥伦比亚影业负责人马克·坎顿的经历。在他被雇佣后不久,人们形容他票房敏锐且热情,但在他任职的前几年,票房成绩令人失望,因此被解雇。一位未具名的同事批评他“无法区分赢家和输家”,另一位则批评他“过于热衷于鼓掌”,这位声名狼藉的人在他离开时,留下了诸如《黑衣人》(全球票房收入 5.89 亿美元)、《空军一号》(3.15 亿美元)、《第五元素》(2.64 亿美元)、《 Jerry 麦圭尔》(2.74 亿美元)和《 Anaconda》(1.37 亿美元)等电影。正如《综艺》杂志所说,坎顿的代表作“一炮而红”。¹⁶
好吧,这就是好莱坞,一个迈克尔·奥维茨担任迪士尼总裁十五个月后带着 1.4 亿美元遣散费离职,以及制片厂负责人大卫·贝格林因伪造和挪用公款被哥伦比亚影业解雇,几年后又被聘为米高梅公司 CEO 的城市。但正如我们将在接下来的章节中看到的,困扰好莱坞的同样错误判断也困扰着生活中各个领域的认知。
我自己对随机性的隐藏效应的顿悟是在大学期间产生的,当时我选修了一门概率论课程,并开始将它的原理应用于体育世界。这样做很容易,因为就像电影行业一样,体育领域的成就很容易量化,数据也容易获取。我发现,正如我们从体育中学到的坚持不懈、练习和团队合作的教训同样适用于生活的所有事业一样,随机性的教训也是如此。因此,我开始考察两位棒球强打者罗杰·马里斯和米基·曼特尔的传奇故事,这个故事对我们所有人都有启示,即使是对棒球一无所知的人也是如此。
那一年是 1961 年。我几乎还没有到阅读的年龄,但我仍然记得马里斯和他的更受欢迎的纽约洋基队友曼特尔在《生活》杂志封面的面孔。这两位棒球运动员正在进行一场历史性的比赛,以平或打破贝比·鲁斯 1927 年创下的 60 个本垒打一年的记录。那是一个理想主义的时代,我的老师会说些像“我们需要更多像贝比·鲁斯这样的英雄”或“我们从未有过一个不正直的总统”这样的话。因为贝比·鲁斯的传说神圣不可侵犯,任何可能挑战它的人都必须是值得的。曼特尔是一个勇敢的常年强打者,尽管膝盖不好,但他仍然在战斗,他是球迷和媒体的压倒性首选。曼特尔是一个英俊、性格温和的家伙,给人一种典型的美国男孩的感觉,每个人都希望他会打破记录。另一方面,马里斯是一个粗鲁、内向的人,一个从未在一年中打出超过 39 个本垒打,更不用说接近 60 个本垒打的劣势者。他被看作是一个讨厌的家伙,不喜欢接受采访,也不喜欢孩子。他们都为曼特尔加油。我喜欢马里斯。
结果证明,曼特尔的膝盖打败了他,他只打出了 54 个本垒打。马里斯打破了鲁斯的记录,打出了 61 个。在其整个职业生涯中,贝比·鲁斯在赛季中打出 50 个或更多的本垒打有四次,十二次打出比联盟中任何人都多的本垒打。马里斯再也没有打出 50 个或 40 个本垒打,再也没有领导过联盟。这种整体表现激起了怨恨。随着时间的推移,马里斯被球迷、体育记者和有时其他球员无情地批评。他们的结论是,他在冠军的压力下崩溃了。一位著名的棒球老将说:“马里斯没有打破鲁斯记录的资格。”¹⁷这可能是对的,但不是老将们认为的那个原因。
多年后,受那门大学数学课程的影响,我开始以新的视角思考马里斯的成就。为了分析鲁斯-曼特尔比赛,我重新阅读了那篇旧的《生活》杂志文章,并在其中找到了关于概率理论的简要讨论¹⁸以及它是如何被用来预测马里斯-曼特尔比赛结果的。我决定创建自己关于全垒打击打的数学模型。下面是如何进行的:任何特定击球的成果(即成功的机会)主要取决于球员的能力,当然。但它也取决于许多其他因素的相互作用:他的健康状况;风、阳光或体育场灯光;他接到的投球质量;比赛情况;他是否正确猜测了投手的投球方式;当他挥棒时,他的手眼协调是否完美无缺;他是否因为酒吧遇到的那个金发女郎让他熬夜太晚,或者他早餐吃的加了蒜味的辣味热狗让他胃部不适。如果不是因为所有不可预测的因素,球员要么在每次击球时都能击出全垒打,要么一次也击不中。相反,对于每次击球,你只能说球员有一定概率击出全垒打,也有一定概率未能击出。在每年数百次的击球中,这些随机因素通常平均化,并导致一些典型的全垒打产量,随着球员技术的提高而增加,然后最终由于在英俊脸庞上刻下皱纹的相同过程而减少。但有时随机因素不会平均化。这种情况发生的频率有多高,异常有多大?
从球员的年度统计数据中,你可以估计他在每个机会击出全垒打的可能性——也就是说,在每次上垒时。¹⁹ 在 1960 年,他创纪录的那一年之前,罗杰·马里斯每 14.7 次机会击出 1 个全垒打(大约等同于他四年黄金时期的平均全垒打产量)。让我们称这种表现为准马里斯。你可以这样模拟准马里斯的全垒打击打技巧:想象一个硬币,平均每 14.7 次投掷才出现一次正面,而不是每两次投掷一次。然后,每次上垒时投掷一次硬币,每次硬币正面朝上时,就给马里斯记一个全垒打。如果你想匹配,比如说,马里斯 1961 赛季的表现,那么你就在他那年每个全垒打机会时投掷一次硬币。通过这种方法,你可以生成一系列模拟的 1961 赛季,其中马里斯的技能水平与正常马里斯的全垒打总数相匹配。这些模拟赛季的结果说明了正常马里斯在 1961 年如果没有他的才能激增的情况下,可以期望达到的成就范围——也就是说,只考虑他的“正常”全垒打能力加上纯粹运气的影响。
要真正进行这个实验,我需要一个相当奇怪的硬币,一个相当强壮的手腕,以及从大学请假。实际上,随机性的数学让我能够使用方程和计算机进行分析。在我的大多数想象中的 1961 赛季中,普通马里斯的本垒打产出,不出所料,都在马里斯的正常范围内。有些模拟赛季他击出了更多的本垒打,有些则击出了更少的本垒打。他很少击出很多或很少的本垒打。普通马里斯的天赋多久能产生鲁斯式的结果?
我原本预期普通马里斯匹配鲁斯记录的机会与几年前他在便利店买早餐饼干时多投了一美元,最终赢得他州彩票 3.14 亿美元的机会大致相等。这就是一个天赋较低球员的机会。但普通马里斯,尽管不是鲁斯式的,但在击球方面仍然远超平均水平。因此,普通马里斯偶然产生创纪录产出的概率并不微小:他大约每 32 个赛季就能匹配或打破鲁斯的记录一次。这可能听起来不是什么好机会,你可能不会想对马里斯或 1961 年特别下注。但这些概率导致了一个引人注目的结论。为了理解为什么,我们现在来问一个更有趣的问题。让我们考虑所有具有普通马里斯天赋的球员,以及从鲁斯的记录开始到“类固醇时代”开始(由于球员使用药物,本垒打变得更为普遍)的整整七十年。仅凭偶然,某个时间某个球员匹配或打破鲁斯记录的概率是多少?相信马里斯只是偶然成为那个幸运的异常赛季的受益者是否合理?
历史表明,在那个时期,大约每 3 年就有一位球员,他们的天赋和机遇与 1961 年的普通马里斯相当。当你把所有这些加起来,这就使得仅凭偶然,其中一位球员能够匹配或打破鲁斯的记录的概率略大于 50%。换句话说,在七十年的时间里,对于一个生产过程更像是 40 个本垒打的球员来说,出现 60 个或更多本垒打的随机峰值是预期的——这种现象类似于你在糟糕的电话连接中偶尔听到的那种嘈杂的噼啪声。当然,我们也预期,我们会将那位“幸运”的人神化,或者诋毁他——当然会无休止地分析他。
我们永远无法确定马里斯在 1961 年是否比他在其他任何一年打职业棒球时都要出色,或者他是否仅仅是好运的受益者。但像已故的斯蒂芬·杰·古尔德和诺贝尔奖获得者 E. M. 普尔塞尔这样杰出的科学家对棒球和其他运动进行的详细分析表明,像我描述的那种抛硬币模型与球员和球队的实际表现,包括他们的热手和冷手期,非常吻合。²⁰
当我们观察体育或其他领域的非凡成就时,我们应该记住,非凡的事件可能没有非凡的原因。随机事件往往看起来像是非随机事件,在解读人类事务时,我们必须小心不要混淆这两者。尽管经历了许多世纪,科学家们已经学会了超越表面秩序,认识到自然和日常生活中隐藏的随机性。在本章中,我展示了一些这些运作的片段。在接下来的章节中,我将考虑随机性的核心思想及其历史背景,并描述它们的相关性,旨在为我们日常环境提供一个新的视角,从而更好地理解这一自然基本方面与我们自身经验之间的联系。
第二章
真理与半真理定律
**在晴朗无月的夜晚仰望天空,人眼可以探测到成千上万的闪烁光源。这些星星随意散布其中,形成了图案。这里有一只狮子,那里有一把勺子。发现模式的能力既可以是优点也可以是缺点。艾萨克·牛顿思考着落体运动的模式,并创立了万有引力定律。其他人注意到当他们穿着脏袜子时,他们的运动表现有所提升,因此此后他们拒绝再穿干净的袜子。在自然界的所有模式中,我们如何区分有意义的模式呢?这种区分本质上是一项实用的事业。因此,你可能会惊讶地了解到,与作为一套公理、证明和定理的集合而出现的几何学不同,随机性理论起源于专注于咒语和赌博的头脑,我们更可能想象他们手里拿着骰子或药水,而不是一本书或卷轴。
随机性理论从根本上是对常识的编码。但这也是一个充满微妙性的领域,在这个领域中,伟大的专家们出了名地犯了错误,而专业的赌徒们出了名地正确。要理解随机性并克服我们的误解,既需要经验,也需要大量的深思熟虑。因此,我们开始我们的旅程,探讨一些基本的概率定律以及揭示、理解和应用它们的挑战。对人们关于这些定律的直觉的经典探索之一是由那些极大地阐明我们误解的丹尼尔·卡尼曼和阿莫斯·特沃斯基进行的实验。¹ 欢迎您参与并了解您自己的概率直觉。
想象一个名叫琳达的女性,31 岁,单身,直言不讳,非常聪明。在大学时,她主修哲学。作为一名学生,她深深关注歧视和社会正义,并参加了反核示威活动。特沃斯基和卡尼曼向 88 名受试者展示了这个描述,并要求他们根据概率对以下陈述进行 1 到 8 的排名,其中 1 代表最可能,8 代表最不可能。以下是结果,按最可能到最不可能的顺序排列:
| 陈述 | 平均概率排名 |
|---|---|
| 琳达积极参与女权运动。 | 2.1 |
| 琳达是一名精神科社会工作者。 | 3.1 |
| 琳达在书店工作,并参加瑜伽课程。 | 3.3 |
| 琳达是一名银行出纳员,并且积极参与女权运动。 | 4.1 |
| 琳达是一名小学教师。 | 5.2 |
| 琳达是女性选民联盟的成员。 | 5.4 |
| 琳达是一名银行出纳员。 | 6.2 |
| 琳达是一名保险销售员。 | 6.4 |
乍一看,这些结果可能看起来没有什么异常:描述实际上是为了代表一个活跃的女权主义者,而不是银行出纳员或保险销售员。但现在让我们只关注三种可能性及其平均排名,按最有可能到最不可能的顺序列在下面。这是 85%的受访者对三种可能性进行排名的顺序:
| 陈述 | 平均概率排名 |
|---|---|
| 琳达积极参与女权运动。 | 2.1 |
| 琳达是银行出纳员并且积极参与女权运动。 | 4.1 |
| 琳达是银行出纳员。 | 6.2 |
如果关于这一点没有任何奇怪之处,那么卡尼曼和特沃斯基已经欺骗了你,因为如果琳达是银行出纳员并且积极参与女权运动的机会大于琳达是银行出纳员的机会,那么这将违反我们的第一条概率法则,这是所有法则中最基本的之一:两个事件同时发生的概率永远不会大于每个事件单独发生的概率。为什么?简单的算术:事件 A 发生的概率 = 事件 A 和事件 B 同时发生的概率 + 事件 A 发生而事件 B不发生的概率。
卡尼曼和特沃斯基对结果并不感到惊讶,因为他们给了他们的受试者大量的可能性,三个场景之间的联系很容易在混乱中丢失。因此,他们向另一组人展示了琳达的描述,但这次他们只展示了这些可能性:
琳达积极参与女权运动。
琳达是银行出纳员并且积极参与女权运动。
琳达是银行出纳员。
让他们惊讶的是,在这个试验中,87%的受试者也将琳达是银行出纳员并且积极参与女权运动的可能性排名高于琳达是银行出纳员的可能性。因此,研究人员进一步深入:他们明确要求一组 36 名相当复杂的硕士研究生根据我们的第一条概率法则考虑他们的答案。即使在提示之后,仍有两位受试者坚持这种不合逻辑的回答。
卡尼曼和特沃斯基注意到的关于这种顽固的误解的有趣之处在于,如果你问的问题与他们所知道的琳达无关,人们就不会犯同样的错误。例如,假设卡尼曼和特沃斯基问的是以下哪个陈述看起来最有可能:
琳达拥有一家国际煎饼屋特许经营权。
琳达进行了性别转换手术,现在被称为拉里。
琳达进行了性别转换手术,现在被称为拉里,并且拥有一家国际煎饼屋特许经营权。
在这种情况下,很少有人会选择最后一个选项比其他两个选项更有可能。
卡尼曼和特沃斯基得出结论,因为“琳达积极参与女权运动”这一细节根据她性格的初始描述听起来很真实,当他们将这一细节添加到银行出纳员的猜测中时,它增加了场景的可信度。但是,琳达的嬉皮士时代和她在地球上的第四十年之间可能发生了很多事情。她可能经历了对基要主义宗教团体的皈依,嫁给了一个光头,并在她的左臀部纹了一个纳粹十字,或者因为忙于生活的其他方面而不再积极参与政治活动。在这些情况和其他许多情况下,她可能不会积极参与女权运动。因此,尽管它似乎提高了准确性,但添加这一细节降低了场景准确性的可能性。
如果我们得到的细节符合我们对某事物的心理图景,那么一个场景中的细节越多,它看起来就越真实,因此我们认为它越有可能——即使任何将不确定的细节添加到假设中的行为都会使该假设的可能性降低。这种概率逻辑与人们对不确定事件评估之间的不一致引起了卡尼曼和特沃斯基的兴趣,因为它可能导致现实生活中不公平或错误的评估。哪种可能性更大:被告在发现尸体后离开了犯罪现场,还是被告在发现尸体后离开了犯罪现场,因为他害怕被指控犯下可怕的谋杀罪?总统更有可能增加联邦教育援助,还是他或她将利用削减州援助释放的资金增加联邦教育援助?你的公司明年更有可能增加销售额,还是因为它整体经济状况非常好而增加销售额?在每种情况下,尽管后者比前者可能性低,但它听起来可能更可能。正如卡尼曼和特沃斯基所说,“一个好的故事往往比不那么令人满意的……[解释]”可能性更低。
卡尼曼和特沃斯基发现,即使是受过高度训练的医生也会犯这个错误。²他们向一组内科医生展示了一个严重的医疗问题:肺栓塞(肺中的血凝块)。如果你有这种疾病,你可能会表现出一系列症状中的一种或多种。其中一些症状,如部分瘫痪,是不常见的;而另一些症状,如气短,则是可能的。哪种可能性更大:栓塞的受害者只会经历部分瘫痪,还是受害者会经历部分瘫痪和气短?卡尼曼和特沃斯基发现,91%的医生认为血凝块引起仅是罕见症状的可能性比引起罕见症状和常见症状的组合的可能性要小。(为了医生的辩护,患者不会走进他们的办公室说:“我肺里有血凝块。猜猜我的症状。”)
多年后,卡尼曼的一位学生和另一位研究人员发现,律师们在判断中也会受到相同的偏见的影响。³无论涉及刑事案件还是民事案件,客户通常依赖他们的律师来评估如果案件进入审判阶段可能会发生什么。获得无罪释放或和解,或者获得各种金额的金钱判决的可能性有多大?尽管律师可能不会用数字概率的术语来表达他们的观点,但他们提供的建议是基于他们对可能结果相对可能性的个人预测。在这里,研究人员也发现,律师们将更高的概率分配给描述得更详细的偶然事件。例如,在保拉·琼斯对当时的总统比尔·克林顿提起的民事诉讼中,200 名执业律师被要求预测审判不会进行完整过程的概率。对于一些受试者来说,这种可能性被分解为导致审判提前结束的具体原因,例如和解、撤回指控或法官驳回。在比较两组律师——那些仅仅被要求预测审判是否会进行完整过程的律师和那些被展示审判可能提前结束的方式的律师——的研究人员发现,那些被展示提前结束原因的律师比其他律师更有可能预测审判将提前结束。
评估我们环境中不同现象之间有意义联系的能力可能非常重要,以至于值得看看一些海市蜃楼。如果一个饥饿的穴居人看到远处岩石上模糊的绿色模糊物,当它实际上是一只丰满、美味的蜥蜴时,将其视为无趣而忽略它的代价,比冲过去扑向最终只是一片散叶的代价要高。因此,这种理论认为,我们可能已经进化到避免前者错误,而有时会犯后者错误。
在数学的故事中,古希腊人因其发明了现代数学进行的方式而脱颖而出:通过公理、证明、定理、更多的证明、更多的定理,等等。然而,在 20 世纪 30 年代,捷克裔美国数学家库尔特·哥德尔——爱因斯坦的朋友——表明这种方法存在一些不足:他证明,大多数数学要么必须是不一致的,要么必须包含无法证明的真理。尽管如此,数学的进步仍然以希腊风格,即欧几里得风格,持续不断。希腊人在几何学上是一群天才,他们创建了一组小的公理,即无需证明即可接受的说法,并从这里出发证明了众多美丽的定理,详细阐述了直线、平面、三角形和其他几何形状的性质。从这些知识中,他们认识到,例如,地球是一个球体,甚至计算出了它的半径。人们不禁要问,一个能够提出欧几里得《几何原本》第一卷命题 29——"一条直线落在两条平行直线上,使得对顶角相等,外角等于内角和与之相对的角,以及同侧的内角等于两个直角"——这样的定理的文明,为什么没有创造出一种理论来表明,如果你掷两个骰子,押注它们两个都掷出 6 是不明智的。
实际上,希腊人不仅没有雪佛兰,而且也没有骰子。然而,他们确实有赌博成瘾。他们也有大量的动物尸体,所以他们掷的是由脚跟骨制成的骰子。一个髁骨有六个面,但只有四个足够稳定,可以使骨头落在上面。现代学者指出,由于骨头的结构,落在四个面上的机会并不相等:其中两个面的机会大约是 10%,另外两个面的机会大约是 40%。一种常见的游戏是掷四个骰子。被认为最好的结果是一个罕见的结果,但不是最罕见的结果:即所有四个骰子都掷出不同的结果。这被称为维纳斯掷骰。维纳斯掷骰的概率大约是 10000 次中的 384 次,但希腊人缺乏随机性理论,不知道这一点。
希腊人在向他们的神谕提问时也使用了髌骨。从他们的神谕那里,提问者可以收到据说神的话语作为答案。许多重要的希腊人选择都是基于神谕的建议,正如历史学家希罗多德和作家如荷马、埃斯库罗斯和索福克勒斯的记载所证明。但尽管髌骨投掷在赌博和宗教中的重要性,希腊人并没有努力去理解髌骨投掷的规律性。
为什么希腊人没有发展出概率论的理论?一个答案是许多希腊人相信未来是按照神意展开的。如果一个髌骨投掷的结果意味着“娶那个在学校兵营后面的摔跤比赛中把你压倒的矮胖斯巴达女孩”,一个希腊男孩不会把投掷看作是随机过程的幸运(或不幸运)结果;他会认为这是神的旨意。在这种观点下,对随机性的理解将变得无关紧要。因此,对随机性的数学预测似乎是不可能的。另一个答案可能在于使希腊人成为伟大数学家的哲学:他们坚持绝对真理,通过逻辑和公理来证明,并反对不确定的声明。例如,在柏拉图的《斐多》中,西米阿斯告诉苏格拉底,“基于概率的论证是骗子”,并预见了卡尼曼和特沃斯基的工作,指出“除非在使用它们时非常小心,否则它们很容易具有欺骗性——在几何学和其他事物中。”在《泰阿泰德》中,苏格拉底说,任何“在几何学中从概率和可能性中进行论证的数学家都不值得一枚王牌。”⁴ 但是,即使那些认为概率论者值得一枚王牌的希腊人,在那些记录保存广泛的年代之前,也可能难以制定一个一致的理论,因为人们在估计过去发生事件的频率——因此是概率——时,名声不佳的记忆力。
哪个更大:以 n 为第五个字母的六字母英语单词的数量,还是以 ing 结尾的六字母英语单词的数量?大多数人会选择以 ing 结尾的单词组。⁶ 为什么?因为以 ing 结尾的单词比以 n 为第五个字母的通用六字母单词更容易想到。但你不必调查《牛津高阶英汉双解大词典》——甚至不必知道如何计数——来证明这个猜测是错误的:以 n 为第五个字母的六字母单词组包括所有以 ing 结尾的六字母单词。心理学家称这种错误为可用性偏差,因为在重建过去时,我们给予最生动且最易检索的记忆过多的重视。
可获得性偏差的糟糕之处在于,它通过扭曲我们对过去事件和环境的感知,潜移默化地扭曲了我们对世界的看法。例如,人们往往会高估无家可归者中精神疾病患者的比例,因为当他们遇到一个行为不奇怪的无家可归者时,他们不会注意到并告诉所有朋友他们遇到的那个不起眼的无家可归者。但是,当他们遇到一个在街道上踩踏并挥动手臂对着一个想象中的伴侣唱歌“当圣徒们行进时”的无家可归者时,他们确实倾向于记住这个事件。⁷ 在杂货店收银台前五条队伍中,你选择最长的那条队伍的可能性有多大?除非你被黑魔法师诅咒了,否则答案大约是五分之一。那么,当你回顾过去时,为什么会有一种感觉,你有一种超自然的能力去选择最长的队伍?因为当事情顺利时,你还有更重要的事情要关注,但当收银台前的女士推车里只有一个商品时,她决定争论她的鸡肉为什么定价为每磅 1.50 美元,而她确信肉类柜台的标牌上写着 1.49 美元,这时事情就会给人留下深刻印象。
可获得性偏差对我们判断和决策产生影响的鲜明例证来自一个模拟陪审团审判。⁸ 在这项研究中,陪审团被提供了关于司机撞上垃圾车时是否醉酒的指控的同等份量的免责和指控证据。问题是,一组陪审员得到了免责证据的“苍白”版本:“垃圾车的车主在交叉审问中表示,由于颜色是灰色,他的垃圾车在夜间很难看到。”另一组陪审员得到了相同证据的“生动”版本:“垃圾车的车主在交叉审问中表示,由于颜色是灰色,他的垃圾车在夜间很难看到。车主评论说,他的卡车是灰色的‘因为这样可以遮住污垢。你想要什么,我应该把它们漆成粉色吗?’”指控证据也以两种方式呈现,这一次是生动形式呈现给第一组,苍白版本呈现给第二组。当陪审团被要求提供有罪/无罪评分时,证据呈现更生动的那一方总是占上风,而且当在宣判前有 48 小时的延迟时,这种影响会增强(可能是因为回忆差距更大)。
通过扭曲我们对过去的看法,可得性偏差使得任何试图理解它的尝试都变得复杂。这一点对古希腊人来说是正确的,对我们也是如此。但还有一个重大的障碍阻碍了早期随机理论的建立,这是一个非常实际的障碍:尽管基本概率只需要了解算术,但希腊人并不知道算术,至少不是那种容易操作的形式。例如,在公元前 5 世纪的雅典,希腊文明鼎盛时期,想要写下数字的人使用了一种字母代码。⁹ 希腊字母表中的前九个字母代表我们称之为 1 到 9 的数字。接下来的九个字母代表我们称之为 10、20、30 等等的数字。最后六个字母加上三个额外的符号代表前九个百位数(100、200 等等,到 900)。如果你现在觉得算术有困难,想象一下尝试从
减去
!更糟糕的是,个位、十位和百位的书写顺序并不重要:有时百位先写,有时后写,有时甚至完全忽略顺序。最后,希腊人没有零。
零的概念是在公元前 331 年亚历山大入侵巴比伦帝国时传入希腊的。即便如此,尽管亚历山大人开始使用零来表示数字的缺失,但它并没有作为独立的数字被使用。在现代数学中,数字 0 有两个关键属性:在加法中,它是那个加上任何其他数字都不会改变其他数字的数字;在乘法中,它是那个乘以任何其他数字都不会改变自身的数字。这个概念直到 9 世纪才由印度数学家马哈维拉引入。
即使在发展出可用的数字系统之后,还需要许多世纪的时间人们才开始认识到加法、减法、乘法和除法是基本的算术运算,并且逐渐意识到方便的符号会使它们的操作变得容易得多。因此,直到 16 世纪,西方世界才真正准备好发展概率理论。尽管如此,尽管计算系统存在不便,但正是征服了希腊的文明——罗马人——在理解随机性方面取得了第一个进步。

罗马人通常轻视数学,至少是希腊人的数学。正如生活在公元前 106 年至 43 年的罗马政治家西塞罗所说,“希腊人将几何学家尊为最高荣誉;因此,在他们中间,没有哪门学科比数学进步更辉煌。但我们将这门艺术的极限定为其在测量和计数方面的实用性。” ¹⁰ 事实上,虽然人们可能会想象一本希腊教科书专注于抽象三角形之间共性的证明,但一本典型的罗马教科书则关注诸如在敌人占领对岸时如何确定河流宽度等问题。¹¹ 在这种数学优先级下,希腊人产生了诸如阿基米德、丢番图、欧几里得、欧多克斯、毕达哥拉斯和泰勒斯等数学巨星,而罗马人甚至没有产生一位数学家。¹² 在罗马文化中,舒适和战争,而不是真理和美,占据了舞台的中心。然而,正是因为他们关注实用性,罗马人看到了理解概率的价值。所以,尽管对抽象几何学价值不大,西塞罗写道:“概率是生活的指南。” ¹³
西塞罗可能是古代最伟大的概率论捍卫者。他运用概率论来反驳赌博成功归因于神灵干预的普遍观点,写道:“经常玩牌的人总会在某个时候掷出维纳斯的牌:确实,他有时会连续掷出两次,甚至三次。我们难道会如此脆弱,以至于断言这种事情是维纳斯亲自干预的结果,而不是纯粹的运气?” ¹⁴ 西塞罗相信,即使事件的发生是盲目的机会的结果,人们也可以预测和预知事件。他甚至用统计论来嘲讽占星术的信仰。虽然占星术在罗马被禁止,但它仍然盛行,西塞罗注意到,公元前 216 年,汉尼拔率领大约 50,000 名迦太基及其盟军,在坎尼战役中击败了规模更大的罗马军队,杀死了 80,000 名士兵中的 60,000 多人。“在坎尼战役中阵亡的所有罗马人都有相同的星盘吗?”西塞罗问道。“然而,他们都有相同的结局。” ¹⁵ 西塞罗可能会因为知道两千年后,《自然》杂志上的一项关于占星术预测有效性的科学研究表明了他的结论而感到鼓舞。¹⁶ 另一方面,《纽约邮报》建议,作为一个射手座的人,我必须客观地看待批评,并做出任何似乎必要的改变。
最终,西塞罗在随机性领域的最主要遗产是他所使用的术语 probabilis,这是我们今天所使用的术语的起源。但它是罗马法典《法典》的一部分,由第六世纪的皇帝查士丁尼编纂,这是首次将概率作为日常术语出现的文件。¹⁷ 要欣赏罗马将数学思维应用于法律理论的应用,必须理解其背景:在黑暗时代,罗马法基于日耳曼部落的实践。那并不美好。以证词规则为例。比如,一个丈夫否认与妻子的托加制造商有外遇,其真实性不是由丈夫能否承受尖锐的反对律师的盘问来决定,而是看他是否在遭受刺痛——由红热的铁——后仍坚持自己的故事。(如果恢复 那种 习俗,你将看到更多在庭外解决的离婚案件。)如果被告说战车从未试图停下,但专家证人说蹄印显示刹车已被应用,日耳曼教义提供了一个简单的处方:“从每个群体中选出一个人用盾牌和长矛决斗。谁输了就是伪证者,必须失去他的右手。”¹⁸
在取代或至少补充决斗审判的做法时,罗马人寻求在数学精确性中找到治愈他们旧有、任意系统的缺陷的良方。在这个背景下,罗马的正义观念采用了先进的知识概念。认识到证据和证词常常冲突,以及解决此类冲突的最佳方式是量化不可避免的不确定性,罗马人创造了半证明的概念,适用于没有充分理由相信或怀疑证据或证词的案件。在某些情况下,罗马的证据法甚至包括更精细的证明程度,如教会法令规定:“主教在没有七十二名证人证词的情况下不应被定罪……红衣主教神父在没有四十四名证人证词的情况下不应被定罪,罗马城的红衣主教执事在没有三十六名证人证词的情况下不应被定罪,副执事、助祭、驱魔师、读经人、门卫在没有七名证人证词的情况下不应被定罪。” ¹⁹ 根据这些规则定罪,你必须不仅犯罪,还要卖票。尽管如此,认识到证词中真理的概率可能变化,以及组合此类概率的规则是必要的,这是一个开端。因此,在不太可能的古罗马,基于概率的系统规则首次出现。
很不幸,当你同时处理 VIIIs 和 XIVs 时,很难达到量化技巧。最终,尽管罗马法具有一定的法律合理性和连贯性,但它缺乏数学上的有效性。例如,在罗马法中,两个半证明构成一个完整的证明。对于一个不习惯于量化思维的人来说,这可能听起来合理,但考虑到今天我们对分数的熟悉程度,它引发了一个问题:如果两个半证明等于一个完整的确定性,那么三个半证明又意味着什么呢?根据正确的概率复合方式,两个半证明产生的确定性小于一个整体,而且任何有限数量的部分证明永远不会加起来成为一个确定性,因为要复合概率,你不是相加,而是相乘。
这就引出了我们的下一个法则,概率复合的规则:如果两个可能的事件 A 和 B 是独立的,那么 A 和 B 同时发生的概率等于它们各自概率的乘积. 假设一个已婚人士平均每年有 1/50 的几率离婚。另一方面,一名警察每年有大约 1/5,000 的几率在工作岗位上被杀害。一个已婚的警察在同年离婚和被杀的概率是多少?根据上述原则,如果这些事件是独立的,那么几率大约是[1]/[50] × [1]/[5,000],等于[1]/[250,000]。当然,这些事件不是独立的;它们是相互关联的:一旦你死了,该死,你就不能再离婚了。因此,这种不幸的几率实际上略小于 1/250,000。
为什么是乘法而不是加法呢?假设你从通过互联网约会服务遇到的 100 个男人中制作了一副交易卡,这些男人在他们的网站照片中通常看起来像汤姆·克鲁斯,但现实中更常像丹尼·德维托。假设在每张卡的背面,你列出关于这些男人的某些数据,例如诚实(是或否)和吸引人(是或否)。最后,假设在所有潜在的灵魂伴侣中,有 1/10 的人在这两方面都给出了肯定的回答。在你的 100 张卡片中,有多少人会在两方面都通过测试?让我们以诚实作为第一个特征(我们同样可以很好地选择吸引人)。由于有 1/10 的卡片在诚实这一项下列出了“是”,因此 100 张卡片中有 10 张符合条件。在这 10 张中,有多少张是吸引人的?再次,1/10,所以现在你只剩下一张卡片。第一个 1/10 将可能性减少了 1/10,下一个 1/10 也是如此,使得结果变成了 1/100。这就是为什么你要乘法的原因。如果你有比诚实和吸引人更多的要求,你必须继续乘法,所以……祝你好运。
在我们继续之前,值得注意一个重要细节:即“如果两个可能的事件,A 和 B,是独立的”这一条款。假设一家航空公司航班上只剩下一个座位,还有两名乘客尚未登机。假设根据经验,航空公司知道有三分之二的可能性,预订座位的乘客会到达并领取座位。运用乘法法则,登机口服务员可以得出结论,她将有大约 44%的几率不得不处理一个不高兴的顾客。另一方面,两名乘客都不登机,飞机不得不空飞的概率是 1/3 乘以 1/3,即只有大约 11%。但这是基于乘客是独立的假设。如果,比如说,他们是一起旅行的,那么上述分析就是错误的。两人都会登机的概率是三分之二,这与一个人会登机的概率相同。重要的是要记住,只有当事件之间没有任何依赖关系时,你才能通过相乘简单概率来得到复合概率。
我们刚才应用的规则可以应用于罗马的半证明规则:两个独立半证明都错误的概率是四分之一,所以两个半证明构成四分之三的证明,而不是整个证明。罗马人在应该相乘的地方加了。
有一些情况下,概率“应该”相加,这是我们接下来要讨论的定律。它出现在我们想知道一个事件或另一个事件发生的概率时,与之前我们想知道一个事件和另一个事件同时发生的概率的情况不同。定律是这样的:如果一个事件可以有多种不同和明确的结果,A、B、C 等等,那么 A 或 B 发生的概率等于 A 和 B 各自概率的和,以及所有可能结果(A、B、C 等等)概率的总和为 1(即 100%)。当你想知道两个独立事件 A 和 B 同时发生的概率时,你相乘;如果你想知道两个互斥事件 A 或 B 中任何一个发生的概率时,你相加。回到我们的航空公司:登机口服务员应该在什么时候相加概率而不是相乘呢?假设她想知道两名乘客要么都登机要么都不登机的概率。在这种情况下,她应该相加个别概率,根据我们上面的计算,这将达到 55%。
这三条定律虽然简单,却是概率论的大部分基础。正确应用,它们可以让我们深入了解自然界的运作和日常世界。我们在日常决策中一直使用它们。但就像古罗马的法律制定者一样,我们并不总是正确地使用它们。
回顾过去,摇头叹息,写一些像《腐朽的罗马人》(The Rotten Romans)(Scholastic,1994 年)这样的书是很容易的。但为了避免我们无端地自我吹嘘,我将用探讨我讨论的基本法律如何应用于我们自己的法律体系的一些方式来结束这一章。结果证明,这足以让那些沉醉于文化优越感的人清醒过来。
好消息是,我们现在没有半真半假的证据。但我们确实有一种类似于^(999,000)/[1,000,000]的证明。例如,在刑事审判中,DNA 分析专家作证说,从犯罪现场取出的 DNA 样本与从嫌疑人那里取出的样本相匹配,这种情况并不少见。这样的匹配有多确定?当 DNA 证据首次引入时,一些专家作证称,DNA 测试中不可能出现假阳性。如今,DNA 专家经常作证说,随机人匹配犯罪样本的概率低于一百万分之一或十亿分之一。有了这样的概率,人们几乎不能责怪陪审员认为,“扔掉钥匙”。但还有一个统计数据通常不会提交给陪审团,它与实验室在收集或处理样本时犯错误的事实有关,例如,意外混合或交换样本,或者误解或错误报告结果。这些错误虽然很少见,但并不像随机匹配那样罕见。例如,费城城市犯罪实验室承认,它在一起强奸案中交换了被告和受害者的参考样本,一家名为 Cellmark Diagnostics 的测试公司也承认了类似的错误。²⁰不幸的是,法庭上关于 DNA 的统计数据的力量如此之大,以至于在俄克拉荷马州,一个名叫蒂莫西·达勒姆的男人被判超过 3100 年监禁,尽管当时有 11 个目击者证明他在犯罪时在另一个州。结果发现,在初步分析中,实验室未能完全分离他们测试的液体中强奸者和受害者的 DNA,当与达勒姆的 DNA 比较时,受害者和强奸者的 DNA 组合产生了阳性结果。后来的重新测试发现了错误,达勒姆在监狱里度过了近四年后才被释放。²¹
由于人为原因导致的错误率估计各不相同,但许多专家认为大约为 1%。然而,由于许多实验室的错误率从未被测量过,法院通常不允许就这一总体统计数据作证。即使法院允许就假阳性作证,陪审团将如何评估它?大多数陪审员认为,考虑到两种错误——十亿分之一偶然匹配和百分之一的实验室错误匹配——总体错误率必须在两者之间,比如说五亿分之一,这对大多数陪审员来说仍然超出了合理怀疑的范围。但是,运用概率法则,我们发现了一个截然不同的答案。
思考方式是这样的:由于两种错误都极不可能发生,我们可以忽略同时发生偶然匹配和实验室错误的可能性。因此,我们寻求一个错误或另一个发生的概率。这由我们的求和法则给出:它是实验室错误的概率(百分之一)加上偶然匹配的概率(十亿分之一)。由于后者比前者小一千万倍,因此,我们可以非常近似地认为两种错误的概率与更可能发生的错误的概率相同——也就是说,概率是百分之一。因此,考虑到两种可能的原因,我们应该忽略关于偶然匹配概率的复杂专家证词,而应专注于更高的实验室错误率——这正是法院通常不允许律师展示的数据!因此,关于 DNA 不可靠性的经常重复的说法被夸大了。
这不是一个孤立的问题。在现代法律体系中使用数学所面临的问题,其严重性并不亚于数百年前在罗马出现的问题。最著名的案例之一是关于法律中概率的使用和误用的案例,即 1968 年由加利福尼亚最高法院审理的People v. Collins案。²²以下是法院判决中呈现的该案事实:
1964 年 6 月 18 日,大约上午 11:30,Juanita Brooks 夫人在购物后正沿着洛杉矶市 San Pedro 地区的巷子回家。她身后拖着一只装有杂货的柳条篮子,手提包放在包裹上面。她使用着拐杖。当她弯腰捡起一个空纸箱时,突然被一个她既没看到也没听到接近的人推倒在地。她被摔倒惊呆了,感到有些疼痛。她设法抬头看,看到一个年轻女子从现场跑开。根据布鲁克斯夫人的说法,后者看起来体重约 145 磅,穿着“某种深色衣服”,头发“介于深浅金色之间”,但比被告 Janet Collins 在审判时头发的颜色要浅。事件发生后,布鲁克斯夫人发现她的钱包不见了,钱包里装有 35 至 40 美元。
大约在抢劫案发生的同时,住在小巷尽头的约翰·巴斯(John Bass)在他家前面浇水草坪。他被从巷子里传来的“很多哭泣和尖叫”吸引。当他朝那个方向看去时,他看到一个女人从巷子里跑出来,进入了他对面街道上停着的黄色汽车。他无法说出车的型号。汽车立即启动,绕过另一辆停着的车辆,在狭窄的街道上离巴斯只有六英尺的距离。然后巴斯看到司机是一位戴胡须和胡子的黑人男子……其他证人分别描述了这辆车是黄色的,或者是黄色带米白色顶部的,或者是黄色带蛋壳白色顶部的。这辆车也被描述为中等到大型。
事件发生后几天,洛杉矶一名警察在被告住所前发现一辆黄色林肯车,车身顶部为米白色,并与他们交谈,解释说他正在调查一起抢劫案。他注意到嫌疑人符合犯罪的那对男女的描述,尽管他承认有时会戴胡须,但他说男子没有胡须。当天晚些时候,洛杉矶警察逮捕了这两名嫌疑人,马尔科姆·里卡多·柯林斯(Malcolm Ricardo Collins)和他的妻子珍妮特(Janet)。
对这对夫妇的证据很少,案件很大程度上依赖于受害者约翰·巴斯(John Bass)的辨认。不幸的是,对控方来说,两人都没有在证人席上表现出色。受害者无法辨认珍妮特(Janet)是罪犯,而且根本没见过司机。约翰·巴斯没有见过罪犯,并在警察的排队辨认中说,他无法肯定地将马尔科姆·柯林斯(Malcolm Collins)认定为司机。因此,似乎案件正在瓦解。
进入明星证人,加利福尼亚最高法院意见中仅描述为“一所州立大学的数学讲师”。这位证人作证说,被告“一位金发马尾辫的白人女性……[以及]一位有胡须和胡子的黑人”驾驶了一辆部分黄色的汽车,这足以定罪这对夫妇。为了说明这一点,控方展示了以下表格,以下是从最高法院判决中直接引用的:
| 特征 | 个体概率 |
|---|---|
| 部分黄色的汽车 | ¹/[10] |
| 有胡须的男子 | ¹/[4] |
| 黑人男子有胡须 | ¹/[10] |
| 有马尾辫的女孩 | ¹/[10] |
| 金发女孩 | ¹/[3] |
| 混血情侣在车内 | ¹/[1,000] |
被起诉方召唤的数学老师表示,乘法法则适用于这些数据。通过乘以所有概率,可以得出结论,一对夫妇符合所有这些独特特征的概率是十二百万分之一。因此,他说,可以推断这对夫妇是无辜的概率是十二百万分之一。然后检察官指出,这些个别概率是估计值,并邀请陪审团提供自己的猜测,然后进行计算。他说,他自己认为这些估计是保守的,他使用分配的因子计算出的概率更像是十亿分之一。陪审团接受了这一点,并判定这对夫妇有罪。
这幅图有什么问题?首先,正如我们所看到的,为了通过乘以组成部分的概率来找到复合概率,类别必须是独立的,而在这个案例中它们显然不是。例如,表格引用了观察到一个“有胡子的黑人男子”的概率是十亿分之一,而“有胡须的男子”的概率是四分之一。但大多数有胡子的男子也有胡须,所以如果你观察到“有胡子的黑人男子”,那么你所观察到的男子有胡须的概率就不再是四分之一——它们要高得多。如果你消除“有胡子的黑人男子”这个类别,这个问题就可以得到解决。然后概率的乘积下降到大约百万分之一。
在分析中还有一个错误:相关的概率并不是上面所说的那个——随机选择的一对夫妇与嫌疑人的描述相匹配的概率。相反,相关的概率是所有这些特征都匹配的一对夫妇是罪犯夫妇的概率。前者可能是百万分之一。但对于后者,犯罪地点附近的人口有数百万,因此你合理地预期该地区可能有 2 到 3 对夫妇符合描述。在这种情况下,仅根据这一证据(这几乎是起诉方所拥有的全部证据),一对符合描述的夫妇是罪犯的概率仅为 2 或 3 分之一。这几乎不足以达到合理的怀疑程度。因此,最高法院推翻了柯林斯的定罪。
现代法庭中使用概率和统计学仍然是一个有争议的话题。在柯林斯案中,加利福尼亚最高法院贬低了其所称的“数学审判”,但它为更多“数学技术的适当应用”留下了空间。在随后的几年里,法院很少考虑数学论证,但即使律师和法官没有引用明确的概率或数学定理,他们仍然经常使用这种推理,陪审员在权衡证据时也是如此。此外,由于评估 DNA 证据的必要性,统计论证变得越来越重要。不幸的是,随着这种重要性的增加,律师、法官或陪审团的理解并没有相应增加。正如南加州大学的概率与法律教授托马斯·莱昂解释的那样,“很少有学生选修法律课程中的概率课程,也很少有律师觉得它有存在的必要。”²³ 在法律和其他领域一样,对随机性的理解可以揭示隐藏的真相层面,但只有那些拥有揭示这些真相工具的人才能做到。在下一章中,我们将考虑第一个系统地研究这些工具的人的故事。
第三章
在可能性空间中找到你的路
在 1576 年之前的那几年里,一个穿着奇特的老人可以在罗马的街道上来回漫步,步态奇特,偶尔对着无人特定地喊叫,却没有人听他说话。他曾经在欧洲声名显赫,是一位著名的占星家,宫廷贵族的医生,帕维亚大学医学系的主任。他创造了许多持久的发明,包括组合锁的先驱和今天汽车上使用的万向节。他在哲学、医学、数学和科学等广泛的主题上出版了 131 本书。然而,到了 1576 年,他成了一个有过去但没有未来的人,生活在默默无闻和极端贫困中。那年夏天末,他坐在书桌前写下了他的最后几句话,这是一首赞美他最喜欢的儿子——他最年长的儿子,十六年前,也就是二十六岁时被处决——的颂歌。这位老人于 9 月 20 日去世,离他 75 岁生日还差几天。他比他的三个孩子中的两个活得久;他去世时,他的幸存儿子在宗教裁判所担任专业拷问官。这份美差是他因提供反对他父亲的证据而获得的奖励。
在他去世之前,杰罗拉莫·卡尔达诺烧毁了 170 份未发表的稿件。¹ 在翻阅他的遗物时,人们发现了 111 份幸存下来的稿件。其中一份是几十年前写的,看起来经常修改,是一篇由三十二章组成的论文。题为《论机会游戏之书》,这是第一本关于随机理论的书。人们赌博和应对其他不确定性已经成千上万年。在我渴死之前我能穿越沙漠吗?在这种地震般摇晃的情况下留在悬崖下危险吗?那个喜欢在岩石侧面画野牛的洞穴女孩的笑容是不是意味着她喜欢我?然而,直到卡尔达诺出现,没有人完成过对游戏或其他不确定性过程路径的理性分析。卡尔达诺对机会如何运作的洞察体现在我们称之为样本空间定律的原则中。样本空间定律代表了一个新思想和一种新方法,并为随后几个世纪中所有数学对不确定性的描述奠定了基础。这是一个简单的方法,是平衡支票簿的思想的随机定律类比。然而,通过这种方法,我们能够系统地解决许多其他情况下几乎无法解决的复杂问题。为了说明这个定律的使用和力量,我们将考虑一个问题,尽管它容易表述且不需要高级数学就能解决,但它可能比历史上任何其他随机问题都难住了更多的人。
在报纸专栏中,《游行》杂志的“玛丽莲问答”必须被视为一项巨大的成功。它在 350 家报纸上发行,总发行量接近 3600 万份,这个问答专栏始于 1986 年,至今仍势头强劲。问题可能像答案一样发人深省,是对美国人心中所想的一种(非科学的)盖洛普民意调查。例如:
当股市在一天结束时关闭,为什么无论股票是上涨还是下跌,每个人都站着微笑和鼓掌?
一个朋友怀了双胞胎,她知道这两个孩子是异卵双胞胎。至少有一个孩子是女孩的概率是多少?
当你在路上开车经过一只死臭鼬时,为什么大约需要 10 秒钟才能闻到它的气味?假设你并没有真的压到这只臭鼬。
显然,美国人是非常务实的人。这里需要注意的是,每个查询都包含一定的科学或数学成分,这是该专栏中许多问题的特点。
如果一个人稍微了解一些数学和科学,可能会问,“这位玛丽莲大师是谁?”嗯,玛丽莲是玛丽莲·沃斯·萨万特,因多年被列入《吉尼斯世界纪录》名人堂,被誉为智商最高的记录者(228)。她因与罗伯特·贾维克结婚而闻名,罗伯特·贾维克是贾维克人工心脏的发明者。但有时,尽管名人有其他成就,他们却因一些他们希望从未发生的事情而被人记住(“我没有和那个女人发生性关系”)。这可能就是玛丽莲的情况,她最出名的是对以下问题的回答,这个问题出现在 1990 年 9 月的一个星期天的专栏中(我稍微改变了措辞):
假设一个游戏节目的参赛者可以选择三个门:一个门后面是一辆车,其他门后面是山羊。参赛者选择一个门后,主持人,他知道所有门后面是什么,会打开一个未选择的门,露出一只山羊。然后他对参赛者说:“你想换到另一个未打开的门吗?”对参赛者来说,换门是否有利?²
这个问题受到了电视游戏节目《让我们来交易》的影响,该节目从 1963 年到 1976 年播出,并在 1980 年到 1991 年以几种形式播出。该节目的主要吸引力是英俊、和蔼的主持人蒙提·霍尔和他的诱人着装助手、卡罗尔·梅里尔,1957 年的阿苏萨(加利福尼亚)小姐。
对于这个节目的创作者来说,这一定是个惊喜:在播出近二十七年的 4500 集之后,数学概率问题竟然会成为他们的主要遗产。这个问题因为玛丽莲·沃斯·萨凡特的读者对专栏的强烈反应而使玛丽莲和《让我们来交易》永垂不朽。毕竟,这似乎是一个相当愚蠢的问题。有两个门可供选择——打开一个你就赢了;打开另一个你就输了——所以似乎很明显,无论你是否改变选择,你赢的概率都是 50/50。还有什么比这更简单吗?问题是,玛丽莲在她的专栏中说,换门是更好的选择。
尽管公众在数学问题上普遍被认为是懒惰的,但玛丽莲的读者们反应强烈,就像她主张将加利福尼亚归还给墨西哥一样。她否认显而易见的事实,给她带来了大量的邮件,据她估计有 10,000 封信。³如果你问美国人他们是否同意植物在空气中产生氧气,光比声音传播得快,或者你不能通过煮沸使放射性牛奶变得安全,你将在每个案例中都得到两位数的不同意(分别是 13%,24%,和 35%)。⁴但在这个问题上,美国人团结一致:92%的人同意玛丽莲是错的。
许多读者似乎感到失望。他们信任的人在如此广泛的问题上怎么会因为这样一个简单的问题而感到困惑呢?她的错误是不是象征着美国人民的悲惨无知?几乎有 1000 名博士写信来,其中许多人是数学教授,他们似乎特别愤怒。⁵乔治·梅森大学的数学家写道:“你搞砸了。”
让我解释一下:如果一个门被证明是失败的选择,那么这个信息就会改变剩下两个选择之一的概率——这两个选择都没有任何理由更可能发生——变为 1/2。作为一名职业数学家,我对公众缺乏数学技能非常关心。请通过承认你的错误,并在未来更加小心来帮助我。
从迪金森州立大学传来这样的声音:“我震惊的是,即使被至少三位数学家纠正过,你仍然没有看到你的错误。”来自乔治敦大学的人问:“需要多少愤怒的数学家才能改变你的想法?”美国陆军研究学院的某人也评论说:“如果所有那些博士都是错的,那么国家将陷入严重的麻烦。”回应的数量如此之多,持续时间如此之长,以至于在为这个问题分配了大量专栏空间之后,玛丽莲决定她将不再对此事进行回应。
那位在五月写信的军队博士可能正确,如果所有那些博士都是错的,那将是一个麻烦的迹象。但 Marilyn 是正确的。当被告知这一点时,二十世纪最杰出的数学家之一 Paul Erdös 说:“那是不可能的。”然后,当他看到正确答案的正式数学证明时,他仍然不相信,变得愤怒。只有当一位同事安排了一个计算机模拟,让 Erdös 观看数百次试验,其中 2 比 1 有利于切换时,Erdös 才承认他是错的。⁶
什么东西看起来如此明显怎么会是错误的呢?正如一位专攻概率和统计学的哈佛大学教授所说:“我们的大脑并没有很好地适应解决概率问题。” ⁷伟大的美国物理学家理查德·费曼曾告诉我,如果我只是阅读了别人的推导,就认为我理解了物理学中的某个理论,那是不可能的。他说,真正理解一个理论的方法是自己推导它(或者最终证明它是错误的!)对我们这些不是费曼的人来说,重新证明别人的工作是导致无法续约和在家得宝当数学检查员的好方法。但蒙提霍尔问题就是这样一个问题,它可以不使用任何专门的数学知识来解决。你不需要微积分、几何、代数,甚至不需要 Erdös 据说喜欢的安非他命。⁸(据传说,他戒掉了一个月后说:“以前,当我看到一张白纸时,我的脑海中充满了想法。现在我只看到一张白纸。”)你所需要的只是对概率如何工作以及样本空间法则的基本理解,这是分析偶然情况的一个框架,最早由 Gerolamo Cardano 在十六世纪将其写下来。

GEROLAMO CARDANO 并非是十六世纪欧洲知识界中叛逆者般的人物。对 Cardano 来说,狗的嚎叫预示着亲人的死亡,而屋顶上几只乌鸦的咕哝则意味着严重的疾病即将来临。他和其他人一样相信命运、运气,以及通过行星和星星的排列来预知未来。然而,如果他玩扑克,他也不会被发现在抽内顺子。对 Cardano 来说,赌博是天性。他对赌博的感觉源于内心,而非头脑,因此他对游戏中可能随机结果之间数学关系的理解超越了由于命运,任何这样的洞察都是徒劳的信念。Cardano 的工作也超越了当时数学的原始状态,因为在十六世纪初期,代数甚至算术还处于石器时代,甚至在等号的发明之前。
历史上有许多关于 Cardano 的记载,这些记载基于他的自传和一些同时代人的著作。一些著作是相互矛盾的,但有一点是确定的:出生于 1501 年的 Gerolamo Cardano 不是一个你会下注的孩子。他的母亲 Chiara 讨厌孩子,尽管——或者可能正因为——她已经有三个儿子。她身材矮小,体态丰满,脾气暴躁,放荡不羁,当她怀上 Gerolamo 时,她准备了一种十六世纪的紧急避孕药——一种由苦艾、烧焦的大麦和柳树根制成的混合物。她喝下这种混合物,试图堕胎。这种混合物让她感到恶心,但未出生的 Gerolamo 对此毫不在意,他对混合物在母亲血液中留下的任何代谢物都感到心满意足。她的其他尝试都以类似的失败告终。
Chiara 和 Gerolamo 的父亲,Fazio Cardano,并未结婚,但他们常常表现得好像已婚一样——他们因许多大声争吵而闻名。在 Gerolamo 出生前的一个月,Chiara 离开了他们在米兰的家,搬到南边二十英里外的帕维亚与她的妹妹同住。Gerolamo 在经历了三天痛苦的分娩后出生。Chiara 看到这个婴儿时,一定以为她终于可以摆脱他了。他身体虚弱,更糟糕的是,他沉默不语。Chiara 的接生婆预言他将在一小时内死去。但即使 Chiara 在想着“再见了”,她还是失望了,因为婴儿的奶妈用温酒给他洗澡,Gerolamo 又恢复了生机。然而,这个婴儿的健康状况只持续了几个月。然后他、他的奶妈和他的三个同父异母的兄弟都患上了瘟疫。瘟疫,有时也被称为黑死病,实际上是由三种不同的疾病组成:腺鼠疫、肺鼠疫和败血病。Cardano 患的是腺鼠疫,这是最常见的,以淋巴结的痛苦鸡蛋大小的肿胀(即腺病)命名,这是该病的显著症状之一。一旦出现腺病,预期寿命大约是一周。
黑死病首次于 1347 年通过西西里岛东北部的墨西拿港进入欧洲,由一支从东方返回的热那亚舰队携带。⁹ 舰队很快被隔离,全体船员都在船上死去——但老鼠幸存了下来,并逃上岸,携带了传播细菌和跳蚤。随后的爆发在两个月内杀死了城市的一半人口,最终,欧洲人口的 25%到 50%。连续的流行病不断发生,几个世纪里一直在压制欧洲的人口。1501 年对意大利的瘟疫来说是个糟糕的年份。Gerolamo 的奶妈和兄弟都死了。幸运的婴儿除了面部、额头、脸颊和下巴上的疣子外,什么都没留下。他注定要活近七十五岁。在这个过程中,他经历了不少不和谐的事情,在他早年,他挨了不少打。
吉罗拉莫的父亲是个有点手段的人。他是达芬奇的偶尔朋友,职业是几何学家,但这个职业并不怎么赚钱。法齐奥经常难以支付房租,所以他开始了一项咨询业务,为贵族提供法律和医学方面的建议。这个企业最终取得了成功,得益于法齐奥声称自己是米兰名叫戈弗雷多·卡斯蒂廖尼的人的兄弟的后裔,此人更为人熟知的是教皇塞莱斯廷四世。当吉罗拉莫五岁时,他的父亲把他带进了这个业务——从某种意义上说。也就是说,他在儿子的背上绑了一个鞍包,里面装满了沉重的法律和医学书籍,然后开始带着这个年轻男孩到全城的客户那里开会。吉罗拉莫后来写道:“有时我们走在街上,父亲会命令我停下来,然后打开一本书,用我的头当桌子,读一些长篇大论,同时用脚踢我,让我保持静止,如果我因为沉重的负担而感到疲倦。”¹⁰
在 1516 年,吉罗拉莫决定他的最佳机会在于医学领域,并宣布他想离开他在米兰的家,回到帕维亚去那里学习。然而,法齐奥希望他学习法律,因为那样他就能有资格获得每年 100 克朗的津贴。经过一场激烈的家族争吵后,法齐奥让步了,但问题仍然存在:没有津贴,吉罗拉莫如何在帕维亚自给自足?他开始通过阅读星象和辅导学生在几何、炼金术和天文学方面赚钱。在某个时候,他注意到自己有赌博的天赋,这个天赋能比其他任何手段更快地为他带来现金。
在卡丹的时代,对任何对赌博感兴趣的人来说,每个城市都是拉斯维加斯。在牌、骰子、国际象棋,甚至是象棋中,到处都在下注。卡丹将这些游戏分为两种类型:那些涉及一些策略或技巧的,以及那些完全由运气决定的。在像象棋这样的游戏中,卡丹冒着被 16 世纪的鲍比·费舍尔击败的风险。但当他赌几个小立方体的落下时,他的机会和其他人一样。然而,在这些游戏中,他确实有优势,因为他比任何对手都更深入地理解了在各种情况下赢得胜利的概率。因此,为了进入赌博世界,卡丹玩的是纯运气游戏。不久,他为自己的教育存下了超过 1000 克朗——比他父亲希望给他的一年的津贴还要多。在 1520 年,他注册成为帕维亚的学生。不久之后,他开始写下他的赌博理论。

在他生活的时代,卡尔达诺有理解许多对希腊人和罗马人来说都是希腊语的知识点的优势,因为印度人已经迈出了将算术作为强大工具的第一步。正是在那个环境中,十进制位值记数法在公元 700 年左右发展起来,并成为标准。¹¹ 印度人在分数算术方面也取得了巨大进步——这对于概率分析至关重要,因为某事发生的概率总是小于一。这种印度知识被阿拉伯人吸收,并最终带到了欧洲。在那里,15 世纪首次使用了缩写,p代表“加”,m代表“减”。符号+和-大约在同一时间由德国人引入,但仅用于表示箱子的过剩和不足重量。值得注意的是,等号尚未存在,直到 1557 年由牛津和剑桥的罗伯特·雷克德发明,他受到几何学的启发,认为没有事物能比平行线更相似,因此决定这样的线应该表示相等。而乘号×,归功于一位英国牧师,直到 17 世纪才出现在舞台上。
卡尔达诺的《机会游戏论》涵盖了纸牌游戏、骰子、国际象棋和骨牌。它并不完美。在其页面上反映出了卡尔达诺的性格、他的疯狂想法、他的暴躁脾气、他对待每一项事业的热情——以及他那个时代的生活动荡。它只考虑那些一种结果与另一种结果一样可能的过程——比如掷骰子或发牌。卡尔达诺在某些地方犯了错误。然而,《机会游戏论》代表了人类探索不确定性本质的第一次成功尝试。卡尔达诺攻击概率问题的方法,既强大又简单,令人震惊。
卡尔达诺的书中并非所有章节都涉及技术问题。例如,第二十六章的标题是“那些教得好的也玩得好吗?”(他总结道,“似乎知道和执行是两回事”)。第二十九章被称为“论玩家的性格”(“有些人用很多话把自己和别人从正确的感官中驱赶出去”)。这些章节看起来更像是“亲爱的艾比”而不是“问玛丽莲”。但第十四章“论组合点”(关于可能性)则不同。在那里,卡尔达诺提出了他所谓的“一般规则”——我们的样本空间法则。
“样本空间”这一术语指的是随机过程的可能结果可以被视为空间中的点。在简单的情况下,空间可能只包含几个点,但在更复杂的情况下,它可以是连续的,就像我们生活的空间一样。然而,Cardano 并没有称之为空间:一组数字可以形成一个空间的概念离那个世纪还有一百年,等待着笛卡尔的到来,他的坐标发明以及他对代数和几何的统一。
用现代语言来说,Cardano 的规则可以这样表述:假设一个随机过程有许多等可能的结果,其中一些是有利的(即,赢),一些是不利的(输)。那么获得有利结果的可能性等于有利结果的比例。所有可能结果的总和称为样本空间。换句话说,如果骰子可以落在六个面中的任何一个,那么这六个结果就构成了样本空间,如果你对其中两个下注,你赢的机会是 2/6。
关于所有结果等可能性的假设,显然这并不总是正确的。观察奥普拉·温弗瑞成年体重跑步的样本空间(历史上)从 145 磅到 237 磅不等,并且随着时间的推移,并非所有体重区间都证明是等可能的。¹² 不同可能性具有不同概率的复杂性可以通过将适当的赔率与每个可能结果相关联来解释——也就是说,通过仔细的核算。但就目前而言,我们将查看所有结果等可能性的例子,就像 Cardano 所分析的那样。
Cardano 规则的效力与其某些微妙之处相辅相成。其中之一在于“结果”这一术语的含义。直到 18 世纪,著名的法国数学家让·勒·朗·达朗贝尔,著有关于概率的几部作品,在分析抛两枚硬币时误用了这一概念。¹³ 在那两次抛掷中出现的头数可以是 0、1 或 2。由于有三个结果,Alembert 推理,每个结果的机会必须是 1/3。但 Alembert 是错误的。
Cardano 工作的最大缺陷之一是他没有对一系列事件,如抛硬币,可能出现的不同方式做出系统分析。正如我们将在下一章中看到的,直到下一个世纪,没有人这样做。然而,连续抛两次硬币的过程足够简单,以至于 Cardano 的方法可以很容易地应用。关键是意识到抛硬币的可能结果描述的是两枚硬币落地的序列,而不是从这些数据中计算出的总头数,就像在 Alembert 的分析中那样。换句话说,我们不应该将 0、1 或 2 个头视为可能的结果,而应该将序列(正面,正面)、(正面,反面)、(反面,正面)和(反面,反面)视为可能的结果。这些是构成样本空间的 4 种可能性。
根据卡丹诺的说法,下一步是整理结果,记录从每个结果中可以收获多少个正面。只有 4 个结果中的 1 个——正面、正面——可以收获 2 个正面。同样,只有(反面、反面)可以收获 0 个正面。但如果我们想要 1 个正面,那么有2个结果是有利的:(正面、反面)和(反面、正面)。因此,卡丹诺的方法表明阿勒姆贝尔是错误的:0 个或 2 个正面的几率是 25%,但 1 个正面的几率是 50%。如果卡丹诺以 3 比 1 的赔率下注 1 个正面,他只有一半的时间会输,但另一半时间会翻三倍,这对一个 16 世纪的男孩来说是一个为大学攒钱的绝佳机会——而且如果你能找到提供这种机会的人,这仍然是一个绝佳的机会。
在初等概率课程中经常教授的一个相关问题是双胞胎问题,这个问题与我从“问玛丽莲”专栏中引用的一个问题类似。假设一位母亲正在携带一对双胞胎,并想知道有两个女孩、一个男孩和一个女孩的几率等等。那么样本空间包括所有可能的孩子的性别列表,按照出生顺序:女孩、女孩,女孩、男孩,男孩、女孩,和男孩、男孩。这与抛硬币问题的空间相同,只是我们命名点的不同:正面变成女孩,反面变成男孩。数学家有一个花哨的名称来描述一个问题在伪装下是另一个问题的情形:他们称之为同构。当你找到一个同构时,通常意味着你为自己节省了很多工作。在这种情况下,这意味着我们可以用与抛硬币问题中两次都出现正面的几率相同的方式来计算两个孩子都是女孩的几率。因此,即使不做分析,我们也知道答案是相同的:25%。现在我们可以回答玛丽莲专栏中提出的问题:至少有一个婴儿是女孩的几率是两个都是女孩的几率加上只有一个女孩的几率——即 25%加上 50%,总共是 75%。
在双胞胎问题中,通常会问一个附加问题:已知其中一个孩子是女孩的情况下,两个孩子都是女孩的几率是多少?有人可能会这样推理:既然已知其中一个孩子是女孩,那么只剩下两个孩子中的一个需要考虑。这个孩子是女孩的几率是 50%,所以两个孩子都是女孩的几率是 50%。
这是不正确的。为什么?尽管问题的陈述说有一个孩子是女孩,但它没有说哪个是女孩,这改变了事情。如果这听起来很困惑,那没关系,因为这提供了一个很好的说明卡丹诺方法力量的例子,它使推理变得清晰。
新的信息——其中一个孩子是女孩——意味着我们排除了两个孩子都是男孩的可能性。因此,采用卡尔达诺的方法,我们从样本空间中排除了可能的结果(男孩,男孩)。这留下了样本空间中只有 3 种可能的结果:(女孩,男孩),(男孩,女孩),和(女孩,女孩)。在这些结果中,只有(女孩,女孩)是有利的结果——也就是说,两个孩子都是女儿,所以两个孩子都是女孩的概率是一分之一,或者说 33%。现在我们可以看到为什么问题陈述没有指定哪个孩子是女儿很重要。例如,如果问题要求在“第一个孩子是女孩的条件下”两个孩子都是女孩的概率,那么我们就从样本空间中排除了(男孩,男孩)和(男孩,女孩),概率将是二分之一,或者说 50%。
我们必须赞扬玛丽莲·沃斯·萨万特,不仅因为她试图提高公众对基础概率的理解,而且还因为她有勇气在经历了令人沮丧的蒙提霍尔经历之后继续发表这样的问题。我们将以她专栏中另一个问题结束这次讨论,这个问题来自 1996 年 3 月:
我爸爸在广播里听到了这个故事。在杜克大学,有两个学生在整个学期里都取得了化学课程的 A。但在期末考试的前一晚,他们去另一个州参加派对,直到考试结束后才回到杜克大学。他们向教授解释说他们遇到了爆胎,并询问是否可以补考。教授同意了,写了一份试卷,并让这两个学生分别进入不同的房间进行考试。试卷的第一题(在试卷的一侧)值五分。然后他们翻过试卷,发现第二题,值九十五分:“是哪个轮胎?”两个学生说同样的事情的概率是多少?我爸爸和我认为是一十六分之一。这是正确的吗?¹⁴
不,不是这样的:如果学生们在撒谎,他们选择相同答案的正确概率是四分之一(如果你需要帮助理解为什么,你可以看看这本书后面的笔记)。¹⁵ 现在我们已经习惯了将问题分解成可能性的列表,我们就可以使用样本空间定律来解决蒙提霍尔问题。
就像我之前说的,理解蒙提霍尔问题不需要数学训练。但它确实需要一些仔细的逻辑思考,所以如果你在观看《辛普森一家》的重播时阅读这篇文章,你可能需要推迟其中一个活动。好消息是,它只占几页。
在蒙提霍尔问题中,你面前有三扇门:一扇门后面有价值的东西,比如一辆闪亮的红色玛莎拉蒂;其他两扇门后面是远不如前者有趣的东西,比如塞尔维亚语的莎士比亚全集。你选择了门 1。在这个情况下,可能的结果有三种:
玛莎拉蒂在门 1 后面。
玛莎拉蒂在门 2 后面。
玛莎拉蒂在门 3 后面。
每种情况发生的概率都是 1/3。由于假设大多数人会更喜欢玛莎拉蒂,所以第一种情况是获胜的情况,你猜对的概率是 1/3。
现在根据问题,接下来发生的事情是,主持人,他知道所有门后面是什么,打开了一扇你没有选择的门,揭示了一组莎士比亚的作品。在打开这扇门时,主持人已经利用他所知道的信息来避免揭示玛莎拉蒂,所以这并不是一个完全随机的过程。有几种情况需要考虑。
一种是你的初始选择是正确的。我们可以称之为幸运猜测场景。现在主持人将随机打开门 2 或门 3,如果你选择换门,你将不会享受到快速、性感的驾驶,而是将拥有托尔克尼亚方言中的《特洛伊罗斯与克瑞西达》。在幸运猜测场景中,你最好不要换门——但落在幸运猜测场景的概率只有 1/3。
我们必须考虑的另一种情况是,你的初始选择是错误的。我们可以称之为错误猜测场景。你猜错的概率是 2/3,所以错误猜测场景发生的可能性是幸运猜测场景的两倍。错误猜测场景与幸运猜测场景有什么不同?在错误猜测场景中,玛莎拉蒂在你不选择的那扇门后面,而塞尔维亚语的莎士比亚全集在另一扇未选择的门后面。与幸运猜测场景不同,在这个场景中,主持人不会随机打开一扇未选择的门。由于他不想揭示玛莎拉蒂,他会“选择”打开恰好没有玛莎拉蒂的那扇门。换句话说,在错误猜测场景中,主持人干预了之前一直是随机的过程。因此,这个过程不再是随机的:主持人利用他的知识来偏袒结果,通过“保证”如果你换选择,你将得到那辆豪华的红色汽车来违反随机性。由于这种干预,如果你发现自己处于错误猜测场景中,你换选择就会赢,不换选择就会输。
总结来说:如果你处于幸运猜测场景(概率为 1/3),坚持你的选择就能赢得比赛。如果你处于错误猜测场景(概率为 2/3),由于主持人的行为,如果你改变选择,你将赢得比赛。因此,你的决定归结为一个猜测:你处于哪种场景?如果你觉得 ESP 或命运引导了你的初始选择,那么你可能不应该改变选择。但除非你能用你的脑波将银勺弯曲成椒盐卷饼,否则你处于错误猜测场景的概率是 2 比 1,因此最好改变选择。电视节目的统计数据证实了这一点:那些发现自己处于问题中描述的情况并改变选择的人,赢得比赛的概率大约是没有改变选择的人的两倍。
摩纳哥大厅问题难以理解,因为除非你仔细思考,否则主持人的角色,就像你母亲的角色一样,没有得到应有的重视。但主持人是在操纵游戏。如果我们假设不是 3 扇门,而是 100 扇门,那么主持人的角色就会变得明显。你仍然选择第 1 扇门,但现在你有 1/100 的正确概率。同时,玛莎拉蒂被藏在其他门后的概率是 99/100。就像之前一样,主持人会打开你未选择的除一扇门外的所有门,确保不会打开藏有玛莎拉蒂的那扇门。在他完成之后,玛莎拉蒂在你选择的门后的概率仍然是 1/100,而在其他门后的概率仍然是 99/100。但现在,由于主持人的干预,只剩下了一扇门代表所有那 99 扇门,因此玛莎拉蒂在那扇剩余的门后的概率是 99/100!
如果蒙提霍尔问题在卡尔达诺的时代就存在,他会成为玛丽莲·沃斯·萨凡特还是保罗·埃尔德什?样本空间定律很好地解决了这个问题,但我们无法确定,因为关于这个问题的最早已知陈述(以不同的名称)直到 1959 年才出现,在马丁·加德纳的《科学美国人》杂志文章中。加德纳称其为“一个令人困惑的小问题”,并指出“在数学的任何其他分支中,专家犯错误都如此容易,就像在概率论中一样。”当然,对于一个数学家来说,错误是一个令人尴尬的问题,但对于一个赌徒来说,它是一个生计问题。因此,当涉及到概率论的第一套系统理论时,正是赌徒卡尔达诺解决了这个问题。
在卡丹多十几岁的时候,他的一个朋友突然去世了。几个月后,卡丹多注意到,没有人再提起他朋友的名字。这让他感到悲伤,并留下了深刻的印象。一个人如何克服生命短暂的事实呢?他决定唯一的办法就是留下一些东西——某种形式的继承人或者持久的作品,或者两者兼而有之。在他的自传中,卡丹多描述了自己发展出“坚定不移的野心”,要在世界上留下自己的印记。¹⁷
在获得医学学位后,卡丹多回到了米兰,寻找工作。在大学期间,他写了一篇论文《论医生的不同意见》,实际上是在批评医学界是一群江湖郎中。米兰医学院现在回报了他的好意,拒绝了他的入学申请。这意味着他不能在米兰行医。因此,利用他从家教和赌博中节省下来的钱,卡丹多在皮奥韦迪萨科镇买了一座小房子。他预计在那里能做很好的生意,因为镇上疾病流行,而且没有医生。但他的市场调研有一个致命的缺陷:镇上没有医生,因为居民们更愿意由巫师和牧师来治疗。经过多年的辛勤工作和学习,卡丹多发现自己手头上有许多空闲时间,但收入很少。这证明是一个幸运的转折,因为他抓住了这个机会,开始写书。其中之一就是《论机会游戏》。
1532 年,在萨科待了五年后,卡丹多回到了米兰,希望自己的作品能被出版,并再次申请加入医学院。在两方面他都遭到了彻底的拒绝。“在那个时代,”他写道,“我内心感到如此恶心,以至于我会去拜访占卜者和巫师,希望找到解决我众多麻烦的方法。” ¹⁸ 其中一个巫师建议他避开月光。另一个巫师则说,醒来后要连续打三个喷嚏,然后敲敲木头。卡丹多遵循了他们所有的处方,但没有任何一个改变他的不幸命运。因此,他戴着斗篷,在夜间偷偷地从一座楼到另一座楼,秘密地治疗那些付不起官方医生费用的病人或者那些在他们的照顾下没有改善的病人。为了补充从这项事业中获得的收入,他在自传中写道,他“被迫再次投掷骰子,以便我能养活我的妻子;在这里,我的知识战胜了命运,我们能够买到食物,尽管我们的住所荒凉。” ¹⁹ 至于《论机会游戏》这本书,尽管他在接下来的几年里反复修订和改进手稿,但他再也没有寻求出版,也许因为他意识到教别人像他一样赌博并不是一个好主意。
卡尔达诺最终实现了他的人生目标,获得了继承权、名声——以及相当可观的财富。他的财富开始积累,当他出版了一本基于他大学旧论文的书时,将标题从有些学术性的“关于医生的不同意见”改为更尖锐的《常见医学的恶劣实践》。这本书大受欢迎。然后,当他的一个秘密病人,一位著名的奥古斯丁会修士的前任,突然(很可能纯属偶然)康复,并将他的康复归功于卡尔达诺的照顾时,卡尔达诺作为医生的声誉开始急剧上升,达到了如此的高度,以至于医学院不仅被迫授予他会员资格,还任命他为院长。与此同时,他还在出版更多的书籍,而且它们都取得了成功,尤其是为大众所著的《算术实践》。几年后,他出版了一本更技术性的书籍,名为《大术》或《大艺术》,这是一本关于代数的论文,他在其中给出了负数的第一个清晰图景,并对某些代数方程进行了著名的分析。当他到了五十年代初,即 1550 年代中期,卡尔达诺正处于巅峰,是帕维亚大学医学系的主席,并且是一个富有的人。
他的好运并没有持续太久。在很大程度上,导致卡尔达诺衰落的是他的另一部分遗产——他的孩子们。当他 16 岁时,他的女儿奇亚拉(以他的母亲命名)诱惑了他的大儿子乔瓦尼,并怀孕了。她成功地进行了堕胎,但这使她失去了生育能力。这对她来说正好合适,因为她大胆地滥交,甚至在婚后也是如此,并感染了梅毒。乔瓦尼后来成为了一名医生,但很快因小偷小摸而闻名,以至于一个以敲诈勒索为生的家庭通过证据证明他毒杀了一个小城市官员,迫使他结婚。与此同时,阿尔多,卡尔达诺的小儿子,小时候曾参与虐待动物,将这种热情转化为为宗教裁判所工作的自由职业折磨者。而且像乔瓦尼一样,他业余时间也做坏事。
在结婚几年后,乔瓦尼给他的一个仆人一种神秘的混合物,要他将其加入蛋糕中给乔瓦尼的妻子食用。当她享用完甜点后突然倒下,当局将事情串联起来。尽管杰罗拉莫花费巨资聘请律师,试图拉拢关系,并在他儿子 behalf 上作证,但年轻的乔瓦尼不久后在监狱中被处决。卡丹诺的资金和声誉的流失使他容易受到老敌人的攻击。米兰参议院将他从允许授课的人名单中除名,并以鸡奸和乱伦的罪名将他驱逐出省。当卡丹诺在 1563 年底离开米兰时,他在自传中写道,他“再次沦落为衣衫褴褛,财富消失,收入中断,租金被扣,书籍被没收。”²⁰ 到那时,他的精神也开始衰退,他陷入了混乱的时期。作为最后的打击,一位名叫尼科洛·塔尔塔利亚的自学成才的数学家,因为卡丹诺在《大术》中透露了塔尔塔利亚解决某些方程的秘密方法而愤怒,诱使阿尔多为了换取博洛尼亚市公共拷问者和行刑官的官方任命,向他的父亲提供证词。卡丹诺被短暂监禁,然后在罗马安静地度过了他最后的几年。*《关于机会游戏的书籍》最终在 1663 年出版,比年轻的卡丹诺最初将文字写成纸上的时间晚了 100 多年。到那时,他的分析方法已经被复制并超越了。
第四章
追踪成功之路
**如果卡达诺时代的赌徒理解了卡达诺关于机会的数学工作,他就可以在对抗不那么复杂的玩家时获得可观的利润。今天,凭借他所拥有的知识,卡达诺可以凭借撰写像《傻瓜掷骰子指南》这样的书籍而获得名声和财富。但在他自己的时代,卡达诺的工作并没有引起太大的轰动,他的《机会游戏之书》直到他去世很久之后才得以出版。为什么卡达诺的工作影响如此之小?正如我们所说,在他之前的一个障碍是缺乏一个好的代数符号系统。在那个时代,这个系统正在改善,但仍然处于初级阶段。然而,另一个障碍尚未消除:卡达诺在一个比数学计算更重视神秘咒语的时代工作。如果人们不去寻找自然中的秩序,不去发展事件的数值描述,那么关于随机性对这些事件影响的理论必然会被忽视。结果证明,如果卡达诺晚生几十年,他的工作和其接受度可能会大不相同,因为在他去世后的几十年里,欧洲思想和信仰发生了历史性的变化,这种变化传统上被称为科学革命。
科学革命是对欧洲从中世纪走出来时盛行的一种思维方式的反抗,在那个时代,人们对世界运作方式的信念并没有以任何系统的方式进行审视。一个城镇的商人因为相信这样能帮助他们啤酒的销售,所以偷走了被绞死的人的衣服。另一个城镇的教徒们相信,通过在教堂祭坛周围赤身裸体地吟唱亵渎的祈祷文,可以治愈疾病。¹甚至有一个商人相信在“错误”的厕所里方便会带来坏运气。实际上,他是一位在 2003 年向 CNN 记者承认自己秘密的债券交易员。²是的,今天还有一些人仍然坚持迷信,但至少今天,对于那些感兴趣的人来说,我们有智力工具来证明或反驳这些行为的功效。但是,如果卡达诺的同时代人,比如说,在掷骰子时赢了,而不是从数学上分析他们的经验,他们可能会说一段感谢的祈祷文或者拒绝清洗他们幸运的袜子。卡达诺本人相信,连串的损失发生是因为“运气不佳”,而提高你结果的一种方法就是给骰子一个有力的抛掷。如果幸运的 7 只靠手腕,那为什么还要屈尊使用数学呢?
通常被认为科学革命转折点的时刻发生在 1583 年,卡达诺去世后的第七年。那是一个年轻的比萨大学学生坐在大教堂里的时候,根据传说,他并没有听宗教仪式,而是盯着他发现远比仪式更有趣的东西:一个大吊灯的摆动。利用他的脉搏作为计时器,伽利略·伽利莱注意到,吊灯似乎在摆动一个宽弧和摆动一个窄弧所需的时间是相同的。这个观察让他想到一个定律:摆钟完成摆动所需的时间与摆动的幅度无关。伽利略的观察是精确且实用的,尽管简单,但它标志着对物理现象描述的新方法:科学必须关注经验和实验——自然如何运作——而不是直觉所指示的或我们心中所认为吸引人的。最重要的是,这必须用数学来完成。
伽利略运用他的科学技能撰写了一篇关于赌博的短文,“掷骰子游戏的思考。”这篇作品是在他的赞助人,托斯卡纳大公的要求下完成的。困扰大公的问题是:当你掷三个骰子时,为什么数字 10 出现的频率比数字 9 高?10 的出现多余只有大约 8%,而且 10 和 9 都不太常出现,所以大公玩得足够多以至于注意到这种小差异,这意味着他可能比需要伽利略更需要一个良好的十二步计划。无论出于什么原因,伽利略并不热衷于解决这个问题,并对它抱怨不已。但像任何希望保住饭碗的顾问一样,他尽量低调地抱怨,并完成了他的工作。
如果你掷一个骰子,任何特定数字出现的概率是六分之一。但如果你掷两个骰子,不同总和的概率就不再相等了。例如,骰子总和为 2 的概率是 36 分之一,但总和为 3 的概率是两倍。原因是总和为 2 只能通过掷出两个 1 来实现,而总和为 3 可以通过掷出 1 和 2 或 2 和 1 来实现。这带我们来到了理解随机过程下一个重大步骤:这是本章的主题:发展系统性的方法来分析事件可能发生的方式的数量。
理解大公困惑的关键是,像一位塔木德学者一样来处理这个问题:而不是试图解释为什么 10 出现的频率比 9 高,我们问,为什么 10 出现的频率不应该比 9 高呢? 结果发现,有一个诱人的理由相信骰子的总和应该是 10 和 9,频率相等:10 和 9 都可以用三个骰子的投掷组合成 6 种方式。对于 9,我们可以将这些方式写成(621)、(531)、(522)、(441)、(432)和(333)。对于 10,它们是(631)、(622)、(541)、(532)、(442)和(433)。根据卡丹的样本空间法则,获得有利结果的可能性等于有利结果的比例。9 和 10 的总和可以用相同数量的方式组合。那么,为什么一个比另一个更有可能呢?
原因在于,正如我之前所说的,样本空间法则在其原始形式下仅适用于等可能性的结果,而上述列出的组合并不等可能。例如,结果(631)——即掷出 6、3 和 1——比结果(333)的可能性高 6 倍,因为虽然掷出三个 3 只有 1 种方式,但你掷出 6、3 和 1 的组合有 6 种:你可以先掷出 6,然后是 3,最后是 1,或者先掷出 1,然后是 3,最后是 6,以此类推。让我们用由逗号分隔的三个数字表示我们正在跟踪投掷顺序的结果。那么我们刚才所说的简单方式是,结果(631)由以下可能性组成:(1,3,6)、(1,6,3)、(3,1,6)、(3,6,1)、(6,1,3)和(6,3,1),而结果(333)仅由(3,3,3)组成。一旦我们进行了这种分解,我们就可以看到结果的可能性是相等的,我们可以应用这个法则。由于掷三个骰子得到 10 有 27 种方式,但得到总和 9 只有 25 种方式,伽利略得出结论,掷三个骰子得到 10 的可能性是 27/25,或者说大约是 1.08 倍。
在解决问题时,伽利略隐含地应用了我们的下一个重要原则:事件发生的可能性取决于它可能发生的方式数量. 这并不是一个令人惊讶的陈述。令人惊讶的是这个效果有多大——以及计算它有多困难。例如,假设你给你的 25 名六年级学生进行一个包含 10 个是非题的测验。让我们来计算一个特定学生可能取得的结果:她可以全部答对;她可以错一题——这可以以 10 种方式发生,因为她可能错过 10 个问题中的任何一个;她可以错过一对问题——这可以以 45 种方式发生,因为有 45 个不同的问题对;以此类推。因此,在随机猜测的学生群体中,对于每个得到 100 分的学生,你将发现大约有 10 个得到 90 分,45 个得到 80 分。得到接近 50 分的概率当然更高,但在 25 个学生的班级中,如果所有学生都在猜测,至少有一个学生得到 B(80 分)或更好的概率大约是 75%。所以如果你是一位经验丰富的教师,那么在多年来的学生中,那些没有准备并在你的测验中或多或少猜测的学生中,有些人可能得到了 A 或 B 的奖励。
几年前,加拿大彩票官员在决定退还一些累积的未领奖金时,通过艰难的方式学会了仔细计数的重要性。³ 他们购买了 500 辆汽车作为奖金,并编程一台计算机从他们 240 万订阅者号码列表中随机选择 500 个号码来确定赢家。官员们公布了未排序的 500 个中奖号码列表,承诺为每个列出的号码提供一辆汽车。令他们尴尬的是,有一个人(正确地)声称他赢得了两辆车。官员们感到震惊——有超过 200 万个号码可供选择,计算机怎么可能随机选择了同一个号码两次?他们的程序中出了什么问题?
彩票官员遇到的计数问题等同于一个被称为生日问题的难题:一个群体需要有多少人,才能有超过一半的概率,使得该群体中的两名成员共享相同的生日(假设所有生日都是等可能的)?大多数人认为答案是每年天数的一半,大约是 183 人。但这是对另一个问题的正确答案:你需要有多少人在聚会上,才能有超过一半的概率,其中一个人会和你共享你的生日?如果对哪两个人会共享生日没有限制,那么许多可能的个体配对可能共享生日的事实会极大地改变答案。实际上,答案惊人地低:只有 23 人。在从 240 万人中抽取的情况下,就像加拿大彩票的情况一样,需要抽取超过 500 个号码才能有重复出现的均等机会。但仍然不应该忽视这种可能性。实际上,匹配的概率大约是 5%。虽然不是很大,但完全可以通过计算机在选中每个号码时将其从列表中划掉来考虑。据记录,加拿大彩票要求幸运儿放弃第二辆车,但他拒绝了。
另一个引起许多人大吃一惊的彩票谜团发生在 1995 年 6 月 21 日的德国。⁴ 这个怪异的事件发生在名为 Lotto 6/49 的彩票中,这意味着中奖的六个号码是从 1 到 49 的数字中抽取的。在问题当天,中奖号码是 15-25-27-30-42-48。这个完全相同的序列之前曾在 1986 年 12 月 20 日被抽中。这是 3,016 次抽取中第一次出现中奖序列重复。这种情况的概率有多大?并不像你想的那么糟糕。当你进行计算时,在多年中某个时刻重复出现的概率大约是 28%。
由于在随机过程中,一个结果可以发生的方式的数量是确定其可能性的关键,因此关键问题是,你如何计算某件事情可以发生的方式的数量?伽利略似乎没有意识到那个问题的意义。他没有将他对随机性的研究扩展到骰子问题之外,并在他作品的第一个段落中说,他之所以写关于骰子,只是因为他“被命令”这样做。⁵ 1633 年,作为他推广科学新方法的回报,伽利略被宗教裁判所谴责。但科学与神学已经永远分道扬镳;科学家现在分析的是如何?而不再受神学家们“为什么?”的问题的束缚。不久,一位来自新一代的学者,自幼接受伽利略科学哲学的教育,将偶然计数分析提升到了新的高度,达到了没有它今天的大部分科学都无法进行理解的水平。
随着科学革命的蓬勃发展,随机性的前沿从意大利转移到了法国,那里出现了一群新的科学家,他们反抗亚里士多德,追随伽利略,将这一领域进一步深化。这一次,新作品的重要性将得到认可,并在整个欧洲引起轰动。尽管新思想仍然是在赌博的背景下发展起来的,但这一新流派的第一位人物更像是一位转向赌博的数学家,而不是像卡尔达诺那样,是一位转向数学的赌徒。他的名字叫布莱兹·帕斯卡。
帕斯卡于 1623 年 6 月出生于克莱蒙费朗,距离巴黎以南大约 250 英里。意识到儿子的才华,并且全家已迁至巴黎,布莱兹的父亲在他 13 岁时介绍他加入了一个新成立的讨论小组,这个小组内部被称为梅森学院,以纪念那位创建学院的黑色长袍修士梅森。梅森的社团包括著名的哲学家数学家勒内·笛卡尔和业余数学天才皮埃尔·德·费马。这种奇特的思想家与自负的混合,加上梅森在场搅动气氛,肯定对青少年布莱兹产生了巨大影响,他不仅与费马和笛卡尔建立了个人联系,还深入了解了新的科学方法。“让所有亚里士多德的信徒……,”他写道,“认识到实验是物理学的真正主宰,必须遵循。”⁶
但一个书呆子和虔诚信仰的人是如何卷入城市赌博场景的问题中的呢?帕斯卡时而时而地经历着胃痛,吞咽困难,食物难以消化,并遭受着令人衰弱的虚弱、剧烈头痛、出汗和腿部部分瘫痪。他冷静地遵循医生的建议,这些建议包括放血、清肠以及饮用驴奶和其他他几乎无法避免呕吐的“令人作呕”的药水——据他的妹妹吉尔贝特说,这是一种“真正的折磨”。⁷ 到那时,帕斯卡已经离开了巴黎,但在 1647 年的夏天,24 岁的他感到绝望,他和妹妹雅克琳一起搬回巴黎,寻求更好的医疗护理。在那里,他的一群新医生给出了当时最先进的建议,即帕斯卡“应该放弃所有的持续脑力劳动,尽可能多地寻找让自己放松的机会”。⁸ 因此,帕斯卡学会了放松和休息,并开始与其他有闲的年轻人相处。然后,在 1651 年,布莱兹的父亲去世,帕斯卡突然成了一个有遗产的二十多岁的人。他把这笔钱用得很好,至少在他医生的角度来看是这样。传记作家称 1651 年至 1654 年是帕斯卡的“世俗时期”。他的妹妹吉尔贝特称这段时间为“他人生中最不充实的时间”。⁹ 尽管他努力自我推销,但他的科学研究几乎毫无进展,但记录在案的是,他的健康状况是他有史以来最好的。
在历史上,随机性的研究往往得益于一个本身也是随机的事件。帕斯卡的工作代表了这样一个时刻,因为正是他放弃学习才引导他研究机会。这一切始于他的一个派对朋友介绍他认识了一个 45 岁的势利小人,名叫安东尼·戈姆博。戈姆博是一个贵族,他的头衔是骑士德·梅雷,他自认为是调情的专家,从他的浪漫纠葛目录来看,他确实是。但德·梅雷也是一个喜欢高赌注的赌徒,他经常赢钱,以至于有人怀疑他在作弊。当他遇到一个小小的赌博难题时,他向帕斯卡寻求帮助。就这样,德·梅雷发起了一项调查,这最终结束了帕斯卡的科学研究停滞期,巩固了德·梅雷在思想史上的地位,并解决了伽利略在公爵掷骰子问题上的工作留下的未解问题。
那一年是 1654 年。德·梅雷带给帕斯卡的这个问题被称为点数问题:假设你和另一位玩家正在玩一个你们都有平等机会的游戏,第一个获得一定分数的玩家获胜。游戏在一位玩家领先的情况下中断。如何公平地分配奖金?德·梅雷指出,解决方案应该反映游戏中断时的比分所决定的每位玩家的胜利机会。但如何计算这个呢?
帕斯卡意识到,无论答案是什么,计算它的方法都尚未知晓,而这些方法,无论它们是什么,都可能在任何类型的竞争情况下具有重要的意义。然而,正如理论研究中经常发生的那样,帕斯卡发现自己对自己的攻击计划感到不确定,甚至有些困惑。他决定他需要一个合作者,或者至少是另一个他可以讨论自己想法的数学家。伟大的传播者马林·梅森几年前已经去世,但帕斯卡仍然与梅森学院保持着联系。因此,在 1654 年,数学史上最伟大的通信之一开始了,这是帕斯卡和皮埃尔·德·费马之间的通信。
在 1654 年,费马在图卢兹的 Tournelle 法院,即刑事法院,担任高职。当法院开庭时,一位身着精美长袍的费马可能会被找到,判决那些犯错的官员被烧死在火刑柱上。但当法院不开庭时,他会将他的分析技能转向更温和的数学追求。他可能是一个业余爱好者,但皮埃尔·德·费马通常被认为是所有时代最伟大的业余数学家。
费马并非通过任何特别的野心或成就获得他的高位。他是以传统的方式,通过在他上司因瘟疫去世后稳步上升而获得这个位置的。事实上,当帕斯卡的信到达时,费马本人正在从一场疾病中恢复过来。他的朋友伯纳德·梅东甚至已经宣布他去世了。当费马没有死时,尴尬但可能很高兴的梅东撤回了他的声明,但毫无疑问,费马已经处于边缘。结果证明,尽管比帕斯卡年长二十二岁,费马还是比他的新通信者多活了几年。
正如我们将要看到的,点的问题出现在生活的任何领域中,其中两个实体在竞争。在他们的信件中,帕斯卡和费马各自发展了自己的方法并解决了该问题的几个版本。但帕斯卡的方法证明更为简单——甚至美丽——而且足够通用,可以应用于我们在日常生活中遇到的许多问题。由于点的问题最初是在一种赌博情况下出现的,我将用一个来自体育世界的例子来说明这个问题。在 1996 年,亚特兰大勇士队在棒球世界大赛的前两场比赛中击败了纽约洋基队,其中首先赢得 4 场比赛的队伍将被封为冠军。勇士队赢得前两场比赛的事实并不一定意味着他们是更优秀的队伍。然而,这可以被视为他们确实更好的迹象。尽管如此,为了我们当前的目的,我们将坚持假设每个队伍赢得每场比赛的可能性是相等的,而且前两场比赛恰好是勇士队赢得的。
基于这个假设,对洋基队的赌注应该是公平的赔率——也就是说,洋基队翻盘的机会有多大?为了计算它,我们计算洋基队可能获胜的所有方式,并将其与洋基队可能失败的方式数量进行比较。系列赛已经进行了两场比赛,所以还有 5 场比赛可能进行。由于每场比赛都有两种可能的结果——洋基队赢(Y)或勇士队赢(B)——所以有 2⁵,即 32 种可能的结果。例如,洋基队可能赢 3 场然后输 2 场:YYYBB;或者他们可以交替获胜:YBYBY。(在后一种情况下,由于勇士队将在第 6 场比赛中赢得 4 场比赛,所以最后一场比赛将不会进行,但我们会稍后讨论这一点。)洋基队翻盘赢得系列赛的概率等于他们至少赢得 4 场比赛的序列数除以总序列数 32;勇士队赢得的概率等于他们至少再赢 2 场比赛的序列数除以 32。
这种计算可能看起来很奇怪,因为正如我提到的,它包括了一些场景(如 YBYBY),在这些场景中,即使勇士队已经赢得了所需的 4 场比赛,两队仍然会继续比赛。一旦勇士队赢得了 4 场比赛,两队当然不会进行第 7 场比赛。但数学是独立于人类的意愿的,玩家是否比赛并不影响这种序列存在的事实。例如,假设你正在玩一个抛硬币的游戏,如果你在任何时候抛出正面,你就赢了。可能的两次抛掷序列有 2²,即 4 种:HT、HH、TH 和 TT。在前两种情况下,你不会再次抛硬币,因为你已经赢了。尽管如此,你赢得的机会是 3/4,因为 4 个完整的序列中包含了 H。
因此,为了计算洋基队和勇士队的胜利机会,我们只需对系列赛剩余可能的 5 场比赛序列进行会计。首先,如果洋基队赢得了剩余 5 场比赛中的 4 场,他们就会获胜。这可以通过 5 种方式之一发生:BYYYY、YBYYY、YYBYY、YYYBY 或 YYYYB。或者,如果洋基队赢得了剩余的所有 5 场比赛,他们也会获胜,这只能通过 1 种方式发生:YYYY。现在来看勇士队:如果洋基队只赢了 3 场比赛,他们就会成为冠军,这可以通过 10 种方式之一发生(BBYYY、BYBYY 等等),或者如果洋基队只赢了 2 场比赛(这同样可以通过 10 种方式之一发生),或者如果洋基队只赢了 1 场比赛(这可以通过 5 种方式之一发生),或者他们一场都没赢(这只能通过 1 种方式发生)。将这些可能的结果加在一起,我们发现洋基队获胜的机会是 32 种中的 6 种,或者说大约 19%,而勇士队获胜的机会是 32 种中的 26 种,或者说大约 81%。根据帕斯卡和费马的说法,如果系列赛突然结束,这就是他们应该分配奖金池的方式,这也是在第一场比赛之后下注应该设定的赔率。据记录,洋基队确实回来了,赢得了接下来的 4 场比赛,并成为了冠军。
同样的推理也可以应用于系列赛的开始——也就是说,在任何比赛开始之前。如果两支球队每场比赛都有相等的机会获胜,你会发现,当然,它们赢得系列赛的机会也是相等的。但如果它们没有相等的机会,类似的推理同样适用,只是我刚才使用的简单计算需要稍作调整:每个结果都需要通过一个描述其相对概率的系数进行加权。如果你这样做,并分析系列赛开始的情况,你会发现,在一个 7 局 4 胜的系列赛中,较弱的一方成为冠军的可能性相当大。例如,如果一个球队在 55%的比赛中足以击败另一个球队,那么较弱的一方在 10 次中有大约 4 次会赢得 7 局 4 胜的系列赛。而且,如果一支球队在与对手相遇时平均每 3 次中有 2 次能获胜,那么较弱的一方在每 5 次对决中大约有 1 次会赢得 7 局 4 胜的系列赛。体育联盟实际上真的无法改变这一点。例如,在概率不平衡的²/[3]情况下,你至少需要打一个至少是最佳 23 局的系列赛,才能以所谓的统计显著性确定赢家,这意味着较弱的一方只有 5%或更少的时间会被授予冠军(见第五章)。而且,在一个球队只有 55-45 优势的情况下,最短的具有统计显著性的“世界系列赛”将是最佳 269 局的比赛,这确实是一项繁琐的任务!所以体育季后赛系列赛可以很有趣和刺激,但成为“世界冠军”并不是一个可靠的指标,表明一支球队实际上是最棒的。
正如我所说,同样的推理不仅适用于游戏、赌博和体育,还适用于更多的情况。例如,它表明如果两家公司正面竞争,或者公司内的两名员工竞争,尽管每个季度或每年可能会有赢家和输家,但要通过简单地统计谁打败了谁来可靠地判断哪个公司或哪个员工更优秀,你可能需要将比较持续数十年或数百年。例如,如果员工 A 确实更优秀,并且最终在 100 次比较中有 60 次会赢得与员工 B 的表现比较,在一个简单的 5 局 3 胜的比较系列中,较弱的员工仍然有大约三分之一的时间会获胜。仅凭短期结果来判断能力是危险的。
在所有这些问题中的计数已经足够简单,无需太多努力就能完成。但当数字更高时,计数变得困难。考虑以下问题,例如:你正在为 100 位客人安排婚礼招待会,每桌可坐 10 人。你不能让你的表亲罗德和你的朋友艾米坐在一起,因为他们八年前有过一段风流韵事,她甩了他。另一方面,艾米和莱蒂西亚都想坐在你健壮的表兄鲍比旁边,而你的阿姨露丝最好坐在听不见的地方,否则接下来的五年里,他们之间的调情将会成为假日晚餐的八卦话题。你仔细考虑了所有可能性。仅考虑第一桌,从 100 人中选择 10 人的方法有多少种?这等同于,在 100 只共同基金中分配 10 项投资或 100 个锗原子在硅晶体中的 100 个位置中分配 10 个原子的方法有多少种?这是在随机理论中反复出现的问题,而不仅仅是点的问题。但随着数字的增加,通过列举所有可能性进行计数变得繁琐或不可能。这正是帕斯卡的真正成就:一种普遍适用且系统的计数方法,允许你通过公式计算答案或从图表中读取。它基于一种奇特的三角形数字排列。
帕斯卡在其作品核心的计算方法实际上是由一位名叫贾宪的中国数学家在 1050 年左右发现的,另一位中国数学家朱世杰在 1303 年将其发表,卡丹在 1570 年的著作中对其进行了讨论,而帕斯卡将其融入了概率理论的更大体系,最终获得了大部分的赞誉。¹⁰ 但帕斯卡并不在意前人的工作。“不要说我说过什么新东西,”帕斯卡在其自传中辩称。“主题的安排是新的。当我们打网球时,我们两人都用同一个球,但其中一个人打得更好。”¹¹ 下文所示帕斯卡使用的图形发明因此被称为帕斯卡三角形。在图中,我已经将帕斯卡三角形截断到第十行,但它可以无限向下延伸。实际上,继续三角形是很容易的,因为除了顶部的 1 之外,每个数字都是其上方一行左侧和右侧数字之和(如果上方没有数字,则加 0)。

帕斯卡三角形
帕斯卡三角形在任何需要知道从具有相等或更多数量的集合中选择一些对象的方式数量时都很有用。以下是如何在婚礼宾客的情况中应用它:要找出从 100 位宾客中可以形成的 10 位宾客的不同座位安排数量,你首先需要查看三角形左侧的数字,直到找到标记为 100 的那一行。我提供的三角形没有延伸到那么远,但为了现在的情况,让我们假设它做到了。第 100 行的第一个数字告诉你从 100 位宾客中选择 0 位宾客的方式数量。当然,只有 1 种方式:你简单地不选择任何人。这无论你选择多少总宾客都是正确的,这就是为什么每一行的第一个数字都是 1 的原因。第 100 行的第二个数字告诉你从 100 位宾客中选择 1 位宾客的方式数量。有 100 种方式可以做到这一点:你可以选择第 1 位宾客,或者第 2 位宾客,以此类推。这种推理适用于每一行,因此每一行的第二个数字仅仅是该行的数字。每一行的第三个数字代表你可以形成的 2 个不同组合的数量,以此类推。我们寻求的数字——你可以形成的 10 位宾客的不同排列数量——因此是第 11 个数字。即使我扩展了三角形以包括 100 行,这个数字也会太大而无法放在页面上。事实上,当一些婚礼宾客不可避免地抱怨座位安排时,你可能会指出考虑每一种可能性需要多长时间:假设你花费一秒钟考虑每一个,这将大约是 1000 亿年。当然,不高兴的宾客会认为你是在夸张。
为了我们能够使用帕斯卡三角形,让我们假设现在你的宾客名单只有 10 位宾客。那么相关的行就是三角形底部标记为 10 的那一行。那一行的数字代表从 10 个人中可以形成的 0、1、2 等等不同桌子的数量。你可能从六年级的测验例子中认出了这些数字——一个学生在 10 个是非题测试中答错特定数量的问题的方式数量与从 10 位宾客中选择宾客的方式数量相同。这就是帕斯卡三角形强大的原因之一:相同的数学可以应用于许多不同的情境。对于我们费力地计算剩余 5 场比赛所有可能性的洋基队-勇士队世界系列赛例子,我们现在可以直接从三角形的第 5 行读取洋基队赢得 0、1、2、3、4 或 5 场比赛的方式数量:
1 5 10 10 5 1
我们可以一眼看出,洋基队赢得 2 场比赛(10 种方式)的机会是赢得 1 场比赛(5 种方式)的两倍。
一旦你学会了这种方法,帕斯卡三角形的用途就会无处不在。我的一个朋友曾在一家初创电脑游戏公司工作。她经常讲述,尽管市场营销总监承认小型的焦点小组只适合“定性结论”,但她有时还是会报告出“压倒性”的 4 比 2 或 5 比 1 的共识,好像这有意义。但假设你举办一个焦点小组,其中 6 个人将审查并评论你正在开发的新产品。假设实际上该产品吸引了半数人口。这种偏好将如何在你的焦点小组中得到准确反映?现在,三角形的相关行是标有 6 的行,代表可能喜欢(或不喜欢)你的产品的 0、1、2、3、4、5 或 6 个成员的可能子组的数量:
1 6 15 20 15 6 1
从这些数字中我们可以看出,有 20 种方式,小组成员可以平分 50/50,准确地反映了大众的观点。但也有 1 + 6 + 15 + 15 + 6 + 1 = 44 种方式,你可能会发现一个不具代表性的共识,无论是支持还是反对。所以,如果你不小心,被误导的可能性是 44 除以 64,大约是三分之二。这个例子并不能证明如果达成共识,那就是随机的。但你也不应该假设它是有意义的。
帕斯卡和费马的分析证明是构建连贯的随机数学理论的一大步。他们著名交流的最后一封信是在 1654 年 10 月 27 日寄出的。几周后,帕斯卡陷入了一种出神状态达两小时之久。有些人称这种出神状态为一种神秘体验,而有些人则哀叹他最终离开了理智的星球。无论你如何描述,帕斯卡从这次事件中变成了一个不同的人。这种转变使他能够对随机概念做出另一项根本性的贡献。
在 1662 年,帕斯卡去世后的几天,一个仆人注意到帕斯卡的夹克里有一个奇怪的鼓包。仆人拉开衬里,发现里面藏有帕斯卡过去八年里每天携带的折叠好的羊皮纸和纸张。在这些纸上,用他的手迹草草地写着一系列孤立的单词和短语,日期是 1654 年 11 月 23 日。这些文字是对那次出神状态的感性描述,其中他描述了上帝如何来到他身边,并在两小时内将他从堕落的生活方式中拯救出来。
在那次启示之后,帕斯卡失去了大部分朋友,称他们为“可怕的依恋”。¹² 他卖掉了自己的马车、马匹、家具、图书馆——除了圣经之外的一切。他把钱给了穷人,自己留下的很少,常常不得不乞讨或借钱来获得食物。他戴着一个带尖刺的铁腰带,以便始终保持不适,并在发现自己有快乐的感觉时,将带刺的腰带推入肉中。他谴责了自己的数学和科学研究。关于他对几何的童年迷恋,他写道:“我几乎不记得还有几何这回事。我认为几何是无用的……很可能我永远不会再想起它。”¹³
尽管如此,帕斯卡仍然保持着生产力。在昏迷之后的那些年里,他记录了自己对上帝、宗教和生活的思考。这些思想后来被收录在名为《思想录》的书中,这本书至今仍在印刷。尽管帕斯卡曾谴责数学,但在这部关于世俗生活徒劳无益的幻象中,有一个数学阐述,他将数学概率的武器直接对准了神学问题,并为其早期关于点的问题的工作做出了同样重要的贡献。
在《思想录》中,数学内容包含在两页手稿中,两面都写满了向各个方向延伸的文字,充满了涂改和修正。在这些页面上,帕斯卡详细分析了一个人对上帝的职责的利弊,就像他在数学上计算赌注的智慧一样。他的伟大创新是他平衡这些利弊的方法,这个概念今天被称为数学期望。
帕斯卡的论证是这样的:假设你承认你不知道上帝是否存在,因此将 50%的概率分配给每个命题。在决定是否过虔诚的生活时,你应该如何权衡这些概率?帕斯卡认为,如果你虔诚地行动而上帝存在,你的收益——永恒的幸福——是无限的。另一方面,如果上帝不存在,你的损失,或者说负回报,是小的——虔诚的牺牲。为了权衡这些可能的收益和损失,帕斯卡提出,你应该将每个可能结果的可能性乘以其回报,并将它们全部加起来,形成一个平均或期望回报。换句话说,虔诚回报的数学期望是一半的无限(如果上帝存在时的收益)减去一半的小数(如果他不存在的损失)。帕斯卡对无限的了解足以知道这个计算的答案是无限的,因此虔诚的期望回报是无限的正值。帕斯卡得出结论,每一个合理的人都应该遵循上帝的法律。今天,这个论证被称为帕斯卡的赌注。
期望是一个重要的概念,不仅在赌博中,而且在所有决策中都很重要。事实上,帕斯卡赌注通常被认为是数学学科博弈论的奠基,博弈论是对游戏中最优决策策略的定量研究。我必须承认,我发现这种思考方式很有吸引力,所以我有时会把它想得太过分。“那个停车计时器的费用是多少?”我问我的儿子。标志上写着 25 美分。是的,但大约每 20 次访问中就有一次我回来晚了,发现了一张罚单,罚金是 40 美元,所以我解释说,停车计时器的 25 美分成本实际上只是一个残酷的诱惑,因为我的实际成本是 2.25 美元。(额外的 2 美元来自于我 20%的机会得到罚单乘以它的 40 美元成本。)“那我们的车道呢?”我问我的另一个儿子,“它是不是一条收费道路?”嗯,我们在那所房子里住了大约 5 年,或者说是大约 2400 次倒车,有 3 次我在 400 美元一次的代价上撞到了突出的栅栏柱上。他告诉我,你不妨在那里放一个收费箱,每次倒车就扔进去 50 美分。他理解期望。(他还建议我在早上喝完咖啡之前不要开车送他们去学校。)
通过数学期望的视角看待世界,人们常常会遇到令人惊讶的结果。例如,最近通过邮寄发送的一次抽奖活动提供了 500 万美元的巨额奖金。¹⁴ 要赢得奖品,你只需将你的参赛表格邮寄出去。参赛次数没有限制,但每次参赛都需要单独邮寄。主办方显然预计会有大约 2 亿份参赛表格,因为细则中提到中奖概率是两亿分之一。参加这种“免费抽奖活动”值得吗?我们将中奖概率乘以奖金,发现每次参赛的价值仅为 1/40 美元,即 2.5 美分——远低于邮寄的成本。实际上,在这个比赛中,最大的赢家是邮局,如果预测准确,邮局从所有提交的表格中获得了近 8000 万美元的邮费收入。
这里还有一个疯狂的博弈游戏。假设加利福尼亚州向其公民提出了以下提议:在所有支付一美元或两美元以进入游戏的人中,大多数人将一无所获,有一个人将获得一笔巨款,而另一个人将以暴力的方式被处死。有人会报名参加这个游戏吗?人们确实报名了,而且热情高涨。这被称为州彩票。尽管州政府并没有像我描述的那样进行宣传,但实际上就是这样运作的。因为虽然每个游戏中都有一个人幸运地赢得了大奖,但数百万其他参赛者会开车去当地票务经销商那里购买他们的彩票,有些人甚至在路上发生事故而丧生。根据国家公路交通安全管理局的统计数据,并基于每个个体驾驶的距离、他们购买多少张票以及典型事故中涉及多少人等假设,你会发现合理的死亡人数估计大约是每场游戏一人。
州政府往往忽视关于彩票可能产生不良影响的争论。那是因为,就数学期望而言,他们知道得足够多,以至于他们可以安排每购买一张彩票,期望的奖金——总奖金除以售出票数——低于票的成本。这通常留下一个整洁的差额,可以转入州财政。然而,在 1992 年,澳大利亚墨尔本的一些投资者注意到弗吉尼亚州彩票违反了这一原则。¹⁵ 这场彩票涉及从 1 到 44 中选择 6 个数字。如果我们找到一个延伸到那么远的帕斯卡三角形,它将显示从 44 个数字中选择 6 个数字的方法有 7,059,052 种。彩票的奖金为 2700 万美元,包括第二、第三和第四名奖金,奖金总额增加到 27,918,561 美元。这些聪明的投资者推理道,如果他们用每种可能的 7,059,052 种数字组合购买一张彩票,这些彩票的价值将等于奖金池的价值。这使得每张彩票的价值大约是 2700 万美元除以 7,059,052,或者大约是 3.95 美元。那么弗吉尼亚州政府以其全部智慧,以什么价格出售这些彩票呢?通常的 1 美元。
澳大利亚投资者迅速在澳大利亚、新西兰、欧洲和美国找到了 2500 名愿意每人平均出资 3000 美元的小投资者。如果这个计划成功,投资的回报率将大约是 10800 美元。他们的计划中存在一些风险。首先,因为他们不是唯一购买彩票的人,所以有可能另一个玩家甚至更多的玩家也会选择中奖彩票,这意味着他们必须平分奖金。在彩票已经举办的 170 次中,有 120 次没有中奖者,只有 40 次是单一个中奖者,而只有 10 次是两个中奖者。如果这些频率准确地反映了他们的几率,那么数据显示他们有 170 中 120 的机会独得奖金,170 中 40 的机会得到一半的奖金,170 中 10 的机会赢得三分之一的奖金。通过运用帕斯卡数学期望原理重新计算他们的预期收益,他们发现预期收益为(120/170 × 2790 万美元)+(40/170 × 1395 万美元)+(10/170 × 697.5 万美元)= 2340 万美元。这意味着每张彩票的收益是 3.31 美元,即使扣除费用,这也是一笔很好的投资回报。
但还有另一个危险:在彩票截止日期前完成所有彩票购买的物流噩梦。这可能导致他们花费了大量的资金,却没有显著的奖金作为回报。
投资小组的成员们做了周密的准备。他们按要求手工填写了 140 万张彩票,每张彩票可以玩五场比赛。他们在 125 个零售店安排了买家小组,并得到了杂货店的合作,因为杂货店从每张售出的彩票中获利。这个计划在截止日期前 72 小时才开始实施。杂货店的员工轮班工作,尽可能多地销售彩票。有一家商店在最后 48 小时内售出了 75,000 张。一家连锁店接受了 240 万张彩票的银行支票,将其中的打印工作分配给其门店,并雇佣了快递员来收集它们。然而,最终,这个小组还是错过了时间:他们只购买了 7059052 张中的 500 万张。
在宣布中奖彩票后的几天里,没有人前来领取。财团赢得了彩票,但它的成员花了那么长时间才找到中奖彩票。然后,当州彩票官员发现财团所做的事情后,他们拒绝支付奖金。在官员得出结论说他们没有有效的理由拒绝该财团之前,发生了一个月的法律纠纷。最终,他们支付了奖金。
对于随机性的研究,帕斯卡既贡献了他的计数思想,又提出了数学期望的概念。谁知道如果他的健康状况能够维持,他可能还会发现什么,尽管他放弃了数学。但事实并非如此。1662 年 7 月,帕斯卡病重。他的医生们开出了常规的治疗方法:他们放血,并给予剧烈的泻药、灌肠和催吐剂。他的病情一度有所好转,但随后疾病再次发作,伴随着剧烈的头痛、头晕和抽搐。帕斯卡发誓,如果他能够幸存下来,他将致力于帮助穷人,并请求被转移到一家收容不治之症的医院,以便如果他在那里去世,他能够与那些人在一起。几天后,他在 1662 年 8 月去世。尸检发现死亡原因是脑出血,但也揭示了他在肝脏、胃和肠道中的病变,这些病变解释了他一生中一直困扰着他的疾病。
第五章
大数和小数的对峙法则
在他们的工作中,卡尔达诺、伽利略和帕斯卡假设他们所面对的问题相关的概率是已知的。例如,伽利略假设骰子落在任何一面上的机会是相等的。但这种“知识”有多可靠?大公的骰子可能被设计成不偏袒任何一面,但这并不意味着公平性实际上得到了实现。伽利略可以通过观察多次投掷并记录每个面出现的频率来测试他的假设。然而,如果他重复进行多次测试,他可能会发现每次测试的结果都有所不同,而且即使是很小的偏差也可能很重要,考虑到他需要解释的微小差异。为了使早期关于随机性的工作适用于现实世界,这个问题必须得到解决:潜在概率和观察结果之间有什么联系?当我们说骰子落在 2 上的概率是 1/6 时,从实际的角度来看这意味着什么?如果这不是说在任何一系列投掷中骰子恰好落在 2 上的次数是 6 次中的 1 次,那么我们基于什么相信投掷 2 的概率确实是 1/6?当医生说一种药物有 70%的有效性或 1%的病例有严重副作用,或者当民意调查显示候选人得到了 36%的选民支持时,这意味着什么?这些问题很深刻,与随机性概念的含义密切相关,这是一个数学家们仍然喜欢争论的概念。
最近,在一个温暖的春天,我与来自希伯来大学的统计学家、摩西进行了一次这样的讨论,当时他坐在我在加州理工学院的午餐桌对面。在吃酸奶的时候,摩西表达了他的观点,即真正随机的数字不存在。“根本不存在这样的事情,”他说。“哦,他们发布图表和编写计算机程序,但他们只是在欺骗自己。没有人找到过比掷骰子更好的产生随机性的方法,而掷骰子根本做不到。”
摩西挥舞着他的白色塑料勺子向我示意。现在他显得很激动。我感觉到他对随机性的感受和他的宗教信念之间有一种联系。摩西是一位正统犹太教徒,我知道许多宗教人士都有这样的问题:上帝怎么可能允许随机性存在。“假设你想要一串由 1 到 6 之间的N个随机数字,”他告诉我。“你掷骰子N次,并记录出现的N个数字。这是一个随机序列吗?”
不,他声称,因为没有人能制造出一个完美的骰子。总会有些面是受到青睐的,而有些面则不受青睐。可能需要投掷 1,000 次才能注意到差异,或者 1 亿次,但最终你会注意到。你会看到更多的 4 而不是 6,或者可能更少。他说,任何人工设备都不可避免地会遭受这种缺陷,因为人类无法达到完美。那可能,但自然可以,真正随机的原子级事件确实会发生。事实上,这正是量子理论的基础,因此我们花了剩下的午餐时间讨论量子光学。
今天,最前沿的量子发生器能够从自然的完美量子骰子的投掷中产生真正的随机数。在过去,为了随机性所需的完美性确实是一个难以捉摸的目标。最富有创意的方法之一来自 20 世纪 20 年代纽约市哈莱姆犯罪集团。¹为了非法彩票的每日供应五位数随机数,这些骗子公然藐视当局,使用美国国库余额的最后五位数字。(在撰写本文时,美国政府负债高达 8,995,800,515,946.50 美元,或每人 29,679.02 美元,因此今天骗子可以从人均债务中获得他们的五位数字!)他们的所谓国库彩票不仅违反了刑法,而且还违反了科学法,因为根据被称为本福特定律的规则,以这种方式产生的数字不是随机的,而是偏向于低数字。
本福特定律并非由一个名叫本福德的男子发现,而是由美国天文学家西蒙·纽科姆发现的。大约在 1881 年,纽科姆注意到,处理以数字 1 开头的对数书的页面比以数字 2 开头的页面更脏、更破旧,以此类推,直到以数字 9 开头的页面,相比之下,看起来干净且崭新。假设从长远来看,磨损与使用量成正比,纽科姆根据他的观察得出结论,与他共享书籍的科学家们正在处理反映这种数字分布的数据。该法律目前的名称是在 1938 年,当弗兰克·本福德在纽约州斯克内克塔迪的通用电气研究实验室审查对数表时注意到相同的事情后出现的。但这两位男子都没有证明这条定律。直到 1995 年,乔治亚理工学院数学家特德·希尔的工作中才发生了这种情况。
根据贝纳德法则,并非所有九个数字都以相同的频率出现,数字 1 应该在大约 30%的数据中作为首位数字出现;数字 2,大约 18%的时间;以此类推,直到数字 9,它应该在大约 5%的时间作为首位数字出现。一个类似的法律,尽管不那么明显,适用于后续的数字。许多类型的数据遵循贝纳德法则,特别是金融数据。事实上,这个法则似乎是为挖掘大量金融数据以寻找欺诈而量身定做的。
一个著名的应用案例涉及一位名叫凯文·劳伦斯(Kevin Lawrence)的年轻企业家,他筹集了 9100 万美元来创建一系列高科技健身俱乐部。² 在资金充裕的情况下,劳伦斯迅速采取行动,雇佣了一大批高管,并以他筹集资金的速度一样快地花费投资者的钱。这本来没问题,除了一个细节:他和他的同伙大部分钱并没有用于业务,而是用于个人物品。由于有几处房产、二十艘个人水上摩托、四十七辆汽车(包括五辆悍马、四辆法拉利、三辆道奇毒蛇、两辆德托马索潘泰拉和一辆兰博基尼迪亚ブロ,两块劳力士手表、一条 21 克拉钻石手链、一把价值 20 万美元的武士刀,以及一台商业级棉花糖机),这些显然难以解释为必要的业务支出,劳伦斯和他的朋友们试图通过复杂的银行账户和空壳公司网络转移投资者的资金,以营造一个繁忙且不断发展的企业表象。不幸的是,他们遇到了一个名叫达雷尔·多雷尔(Darrell Dorrell)的怀疑性法医会计师,他编制了一份超过 70,000 个数字的清单,代表他们各种支票和电汇,并将数字分布与贝纳德法则(Benford’s law)进行了比较。这些数字未能通过测试。³ 当然,这只是调查的开始,但从此之后,这场传奇故事按预期展开,最终在 2003 年感恩节前一天结束,当时,凯文·劳伦斯在律师的陪伴下,身着浅蓝色监狱服装,被判处二十年监禁,且无假释可能。美国国税局(IRS)也研究了贝纳德法则(Benford’s law)作为识别逃税者的方法。一位研究人员甚至将此法则应用于比尔·克林顿(Bill Clinton)十三年的税务申报。它们通过了测试。⁴
很可能,哈莱姆集团及其客户都没有注意到他们在彩票号码中的这些规律。但如果像纽科姆(Newcomb)、贝纳德(Benford)或希尔(Hill)这样的人参与了彩票,原则上他们可以利用贝纳德法则进行有利的投注,从而为他们的学者薪水赚取一笔不错的额外收入。
在 1947 年,兰德公司的科学家们为了一个更值得称赞的目的需要一张大型的随机数字表:帮助找到某些数学方程的近似解,他们采用了一种恰如其分的命名方法——蒙特卡洛方法。为了生成这些数字,他们使用了电子噪声,这是一种电子轮盘赌。电子噪声是随机的吗?这是一个与随机性定义本身一样微妙的问题。
在 1896 年,美国哲学家查尔斯·桑德斯·皮尔士写道,一个随机样本是“根据一种原则或方法抽取的,这种方法如果无限次地反复应用,最终会导致从一组实例中抽取任何一个实例的频率与其他任何相同数量的实例组的频率相同。” ⁵ 这被称为随机性的频率解释。与之相对的另一种解释被称为主观解释。在频率解释中,你根据样本的结果来判断样本;而在主观解释中,你根据样本的产生方式来判断样本。根据主观解释,如果一个数字或一组数字的产生过程我们不知道或无法预测其结果,那么这个数字或数字组被认为是随机的。
两种解释之间的区别比表面上看起来要微妙。例如,在一个完美的世界中,掷骰子的结果会根据第一种定义是随机的,但根据第二种定义则不是,因为所有面出现的概率都是相等的,但我们(在完美世界中)可以运用我们对物理条件和物理定律的精确知识,在每次掷骰子之前确定骰子会落在哪个面上。然而,在现实世界中,掷骰子的结果根据第二种定义是随机的,但根据第一种定义则不是。这是因为,正如摩西所指出的,由于它的不完美,骰子不会以相同的频率落在每个面上;尽管如此,由于我们的局限性,我们对任何面是否比其他面更受青睐没有任何先验知识。
为了决定他们的表格是否随机,兰德科学家们对其进行了各种测试。经过仔细检查,他们的系统显示出存在偏差,就像摩西典型的不完美骰子一样。⁶ 兰德科学家们对其系统进行了一些改进,但从未完全消除规律性。正如摩西所说,完全的混沌讽刺地是一种完美。尽管如此,兰德数字证明足够随机,可以派上用场,该公司于 1955 年在吸引人的标题《一百万随机数字》下发布了它们。
在他们的研究中,兰德公司的科学家遇到了一个轮盘赌问题,这个问题以一种抽象的方式,早在近一个世纪前就被一位名叫约瑟夫·贾格尔的英国人发现了。⁷ 贾格尔是约克郡一家棉纺厂的工程师和机械师,因此他对机械的能力和不足有着直观的感受。1873 年的一天,他将自己的直觉和丰富的想象力从棉花转向了金钱。他想知道,蒙特卡洛的轮盘赌机究竟可以运作得多么完美?
轮盘赌机——据传说是由布莱兹·帕斯卡发明的,当时他正在尝试一个永动机的想法——基本上是一个带有隔板的(称为音叉)大碗,隔板形状像薄薄的饼片。当轮盘转动时,一个弹珠首先沿着碗的边缘弹跳,但最终会落在其中的一格中,这些格子编号从 1 到 36,加上 0(以及美国轮盘赌机的 00)。赌徒的任务很简单:猜测弹珠会落在哪个格子中。轮盘赌机的存在几乎可以证明合法的灵媒并不存在,因为在蒙特卡洛,如果你对一个格子下注 1 美元,并且弹珠落在了那里,赌场会支付给你 35 美元(加上你最初的那 1 美元)。如果真的存在灵媒,你会在那种地方看到他们,大声欢呼、跳舞,推着装满现金的手推车在街上走,而不是在那些自称是“赛尔达无所不知、无所不见”的网站上,提供 24 小时免费在线爱情建议,与大约 120 万其他网络灵媒竞争(根据谷歌的数据)。对我来说,未来和,越来越明显的是,过去不幸地被一层浓雾所遮蔽。但我知道一件事:我在欧洲轮盘赌中输掉的机会是 37 个中的 36 个;赢的机会是 37 个中的 1 个。这意味着,对于我每下注的 1 美元,赌场可以赢得(³⁶/[37] × $1)-(¹/[37] × $35)。这相当于 1/[37]美元,大约是 2.7 美分。根据我的心情,这要么是我观看一个小弹珠在大轮盘上弹跳的乐趣所付出的代价,要么是我获得闪电击中我的机会(以好的方式)所付出的代价。至少,这是它应该发挥作用的方式。
但这真的可行吗?贾格尔心想,他曾经与足够多的机器合作过,足以分享摩西的观点。他愿意打赌它们并不完美。于是他聚集了他的积蓄,前往蒙特卡洛,并雇佣了六名助手,每人负责赌场六台轮盘赌中的一台。每天,他的助手们观察轮盘赌,记录下赌场开门的十二小时内出现的每一个数字。每天晚上,回到他的酒店房间,贾格尔分析这些数字。经过六天的观察,他在五台轮盘赌中并未发现任何偏差,但在第六台轮盘赌上,有九个数字出现的频率明显高于其他数字。因此,在第七天,他前往赌场,并开始大量下注于这九个受欢迎的数字:7、8、9、17、18、19、22、28 和 29。
当那天晚上赌场关闭时,贾格尔的财富增加了 70,000 美元。他的赢利并没有不为人知。其他赌客纷纷涌向他的桌子,扔下自己的现金想要分一杯羹。赌场监察员也围着他,试图破解他的系统,或者更好的是,抓住他作弊。想象一下,这可能是通过一个来自布鲁克林的壮汉完成的。实际上,赌场员工采取了一种更为巧妙的方法。
在第五天,贾格尔开始亏损。他的亏损,就像他的赢利一样,并不是立即就能看出来的。在赌场的小幅度作弊之前和之后,他都会赢一些,也会输一些,但现在他输的次数比赢的次数多。要耗尽贾格尔的资金,需要相当勤奋的下注,但经过四天的吸金,他并不打算放松。当他的运气转变让他感到沮丧时,贾格尔已经损失了一半的财富。可以想象,那时他的心情——不用说他的追随者的心情——是糟糕的。他的计划怎么会突然失败呢?
贾格尔最终做出了一个敏锐的观察。在他花费数十个小时赢钱的过程中,他注意到了轮盘赌上有一个微小的划痕。现在这个划痕已经不见了。赌场是友好地修复了它,以便他能够优雅地将他们逼到破产吗?贾格尔猜测不是,并检查了其他轮盘赌。其中一台有划痕。赌场经理正确地猜测到贾格尔的成功与他在玩的轮盘赌有关,因此他们在一夜之间更换了轮盘赌。贾格尔重新定位,并再次开始赢钱。很快,他的赢利超过了之前的水平,几乎达到了五十万美元。
对于杰格来说,不幸的是,赌场的经理们最终发现了他的计划,并找到了一种新的方法来挫败他。他们决定在每天晚上关闭后移动琴弦,沿着轮子转动它们,使得每天轮子的不平衡都会有利于不同的数字,这些数字杰格不知道。杰格又开始输钱,最终放弃了。他的赌博生涯就此结束,他带着大约 325,000 美元离开蒙特卡洛,按照今天的货币价值大约是 500 万美元。回到家乡后,他辞去了在工厂的工作,并将钱投资在了房地产上。
可能看起来杰格的计划是一定会成功的,但实际上并非如此。即使是完全平衡的轮子也不会以完全相等的频率出现 0、1、2、3 等等,好像领先的数字会礼貌地等待落后的数字赶上。相反,某些数字注定会比平均水平出现得更频繁,而其他数字则出现得更少。因此,即使在观察了六天后,杰格仍然有可能错了。他观察到的某些数字的高频率可能是偶然出现的,并不一定反映了更高的概率。这意味着杰格也必须面对我们在本章开头提出的问题:给定一组基本概率,你能期望你的系统观察结果与这些概率有多接近?正如帕斯卡的工作是在(科学)革命的新气候中完成的,这个问题也会在一场革命中找到答案,这一次是数学革命——微积分的发明。
在 1680 年,一颗巨大的彗星穿越了太阳系我们所在的区域,足够近,以至于它反射的微弱阳光足以使它在我们的星球夜空中显得突出。彗星是在地球轨道上被称为十一月的部分首次被发现的,在此之后数月,它一直是人们密切关注的对象,其轨迹被详细记录下来。1687 年,艾萨克·牛顿将使用这些数据作为他万有引力平方反比定律起作用的例子。在瑞士巴塞尔那片被称为巴塞尔的土地上,一个注定要成为伟大人物的人在那天一个晴朗的夜晚也在关注着。他是一位年轻的神学家,凝视着明亮而模糊的彗星光芒,意识到他想要用一生去研究的是数学,而不是教会。⁸ 随着这个认识的出现,不仅雅各布·伯努利自己的职业发生了转变,而且还将成为数学史上最伟大的家族树:在雅各布出生和 1800 年之间的一百五十年里,伯努利家族产生了许多后代,其中大约有一半是有天赋的,包括八位著名的数学家,以及三位(雅各布、他的弟弟约翰和约翰的儿子丹尼尔)被今天算作是所有时代最伟大的数学家之一。
当时,彗星被神学家和公众 alike 视为神圣愤怒的迹象,上帝似乎对创造这一现象非常愤怒——它占据了超过一半的可见天空。一位传教士称它为“全能而神圣的上帝写下的天启,放在无力和不神圣的人类后代面前。”他写道,这预示着“他们国家或城镇精神或世界事务的显著变化”。⁹ 雅各·伯努利持有不同的观点。1681 年,他发表了一篇题为《新发现的彗星或尾巴星轨迹简化为某些基本定律的方法,及其出现预测》的小册子。
伯努利在彗星问题上比牛顿领先了六年。至少,如果他的理论是正确的,他本可以领先他。但事实并非如此,但公开声称彗星遵循自然法则而非上帝的随意,这是一件勇敢的事情,尤其是在前一年——几乎在伽利略被谴责后五十年——巴塞尔大学的数学教授彼得·梅格林因接受哥白尼体系而遭到神学家的猛烈抨击,并被禁止在大学教授这一体系。在巴塞尔,数学家和科学家与神学家之间存在着一个令人畏惧的分裂,而伯努利坚定地站在了科学家的立场上。
伯努利的天赋很快赢得了数学界的青睐,当梅格林于 1686 年年底去世时,伯努利接替了他成为数学教授。那时,伯努利正在研究与机会游戏相关的问题。他的一个主要影响者是荷兰数学家和科学家克里斯蒂安·惠更斯,他不仅改进了望远镜,成为第一个理解土星环的人,创造了第一个基于伽利略思想的摆钟,并帮助发展了光波理论,还撰写了一本受帕斯卡和费马思想启发的概率数学入门书籍。
对于伯努利来说,惠更斯的书籍是一大启发。然而,他看到了惠更斯提出的理论中的严重局限性。这可能足够用于机会游戏,但对于生活中更为主观的部分又如何呢?如何为法律证词的可信度分配一个确定的概率?或者,如何判断英格兰查理一世和苏格兰玛丽女王谁更擅长高尔夫(两人都是高尔夫爱好者)。伯努利认为,为了使理性决策成为可能,必须有一种可靠且数学的方法来确定概率。他的观点反映了当时的文化,在当时,以符合概率预期的方式处理事务被认为是理性人的标志。但伯努利认为,不仅仅是主观性限制了旧的概率理论。他还认识到,该理论并未为无知的情况设计,在这种情况下,各种结果的可能性原则上可以定义,但在实践中却不知道。这正是我与莫舍讨论的问题,也是贾格尔必须解决的问题:一个不完美的骰子掷出 6 点的概率是多少?感染瘟疫的可能性有多大?你的胸甲能承受对手长剑一击的概率是多少?在主观和不确定的情况下,伯努利认为期望拥有惠更斯书中所设想的先验或先验概率知识是“疯狂”的。¹⁰
伯努利看到了答案,这与贾格尔后来看到的是一样的:我们不应依赖于概率被提供给我们,而应通过观察来辨别它们。作为一个数学家,他试图使这个想法更精确。假设你观察了一定数量的轮盘赌旋转,你能够多准确地确定潜在的概率,以及以多大的信心水平?我们将在下一章回到这些问题,但它们并不是伯努利能够回答的问题。相反,他回答了一个与之密切相关的问题:潜在的概率在实际情况中反映得有多好?伯努利认为,随着试验次数的增加,观察到的频率将越来越准确地反映其潜在的概率,这是显而易见的。他当然不是第一个相信这一点的人。但他第一个对这个问题进行了正式处理,将这个想法转化为证明,并对其进行量化,询问需要多少次试验,以及我们能够有多大的把握。他也是第一批认识到新学科微积分在解决这些问题中的重要性的人之一。
伯努利被任命为巴塞尔大学教授的那一年,在数学史上证明是一个里程碑式的一年:那一年,戈特弗里德·莱布尼茨发表了具有革命性的论文,阐述了积分学的原理,这是他 1684 年关于微分学论文的补充。牛顿将在 1687 年发表他自己的版本,即《自然哲学的数学原理》,或称为《自然哲学的数学原理》,通常简称为《原理》。这些进步将为伯努利关于随机性的工作提供关键。
到他们发表时,莱布尼茨和牛顿已经研究了这个主题多年,但他们的几乎同时发表引发了关于谁应该获得这一想法的争议。伟大的数学家卡尔·皮尔逊(我们将在第八章再次遇到他)说,数学家的声誉“在很大程度上不是基于他们所做的事情,而是基于他们的同时代人赋予他们的东西。”¹¹ 也许牛顿和莱布尼茨会同意这一点。无论如何,他们都不怕一场好斗,随之而来的是一场著名的激烈争论。当时的结果是混合的。德国人和瑞士人从莱布尼茨的作品中学习微积分,而英国人和许多法国人则从牛顿的作品中学习。从现代的角度来看,两者之间几乎没有区别,但长期来看,牛顿的贡献通常被强调,因为他似乎更早地有了这个想法,并且在《原理》中,他将自己的发明应用于现代物理学的创造,使《原理》可能成为有史以来最伟大的科学书籍。然而,莱布尼茨发展了一种更好的符号,今天在微积分中使用的符号就是他的。
两个人的出版物都不容易理解。除了是科学领域最伟大的书籍之外,牛顿的《自然哲学的数学原理》也被誉为“史上最难读懂的书籍之一”。¹² 根据雅各布·伯努利的一位传记作者的说法,莱布尼茨的作品“无人能懂”,它不仅晦涩难懂,而且错误百出。雅各布的兄弟约翰将其称为“谜团而非解释”。¹³ 事实上,这两部作品如此难以理解,以至于学者们推测两位作者可能有意使作品难以理解,以防止业余爱好者涉足。然而,这种神秘特质对雅各布·伯努利来说是一种优势,因为它确实区分了优劣,他的智慧属于前者。因此,一旦他解读了莱布尼茨的思想,他就拥有了全世界只有少数人共享的武器,并且可以轻松解决其他人难以尝试的问题。
微积分和伯努利的工作中至关重要的概念集合是序列、级数和极限。对于数学家来说,“序列”这个词的意思和其他人一样:元素的有序排列,例如点或数字。级数仅仅是数字序列的总和。而且粗略地说,如果一个序列的元素似乎在朝某个方向移动——朝着一个特定的终点或一个特定的数字——那么这被称为序列的极限。
尽管微积分代表了理解序列的新精致,但这个想法,就像许多其他想法一样,古希腊人已经熟悉了。事实上,公元前 5 世纪,希腊哲学家芝诺使用了一个奇怪的序列来制定一个悖论,这个悖论至今仍在大学哲学学生中争论,尤其是在喝了几杯啤酒之后。芝诺的悖论是这样的:假设一个学生想走到门边,门距离她 1 米远。(我们选择米是为了方便,但同样的论点适用于英里或任何其他度量。)在她到达那里之前,她首先必须到达中点。但为了到达中点,她必须首先到达中点的一半——即四分之一的地方。以此类推,无穷无尽。换句话说,为了到达目的地,她必须穿越这个距离序列:1/2 米,1/4 米,1/8 米,1/16 米,以此类推。芝诺认为,因为这个序列是无限的,所以她必须穿越无限多个有限距离。芝诺说,这必须需要无限的时间。芝诺的结论是:你永远到不了任何地方。
几个世纪以来,从亚里士多德到康德,哲学家们一直在争论这个难题。犬儒主义者第欧根尼采取了经验主义的方法:他只是走了几步,然后指出事物实际上确实在移动。对于我们这些不是哲学学生的人来说,这听起来可能是一个相当不错的答案。但这对芝诺来说不会有任何印象。芝诺意识到他的逻辑证明与感官证据之间的冲突;只是与第欧根尼不同,芝诺信任的是逻辑。而且芝诺并不是在原地打转。即使是第欧根尼也必须承认,他的回应让我们面对一个令人困惑(而且,事实证明,深刻)的问题:如果我们的感官证据是正确的,那么芝诺的逻辑有什么问题?
考虑芝诺悖论中的距离序列:¹/[2] 米,¹/[4] 米,¹/[8] 米,¹/[16] 米,以此类推(增量越来越小)。这个序列有无限多个项,所以我们不能简单地通过将它们全部相加来计算其和。但我们可以注意到,尽管项的数量是无限的,但这些项依次变得越来越小。在无限项的流和它们无限缩小的尺寸之间,是否可能有一个有限的平衡?这正是我们可以通过运用序列、级数和极限的概念来解决的问题。为了了解它是如何工作的,我们不必试图计算学生在整个芝诺无限区间之后走了多远,而是可以一次考虑一个区间。以下是学生在前几个区间后的距离:
在第一个区间之后:¹/[2] 米
在第二个区间之后:¹/[2] 米 + ¹/[4] 米 = ³/[4] 米
在第三个区间之后:¹/[2] 米 + ¹/[4] 米 + ¹/[8] 米 = ⁷/[8] 米
在第四个区间之后:¹/[2] 米 + ¹/[4] 米 + ¹/[8] 米 + ¹/[16] 米 = ¹⁵/[16] 米
这些数字中存在一个模式:¹/[2] 米,³/[4] 米,⁷/[8] 米,¹⁵/[16] 米……分母是二的幂,而分子比分母少一。我们可以从这个模式中猜测,在 10 个区间后,学生将走过 ^(1,023)/[1,024] 米;在 20 个区间后,走过 ^(1,048,575)/[1,048,576] 米;以此类推。这个模式清楚地表明,芝诺是正确的,即我们包含的区间越多,我们得到的距离总和就越大。但芝诺在说总和趋向于无穷大时是不正确的。相反,这些数字似乎正在接近 1;或者正如数学家所说,1 米是这个距离序列的极限。这很有道理,因为尽管芝诺把她的旅程分割成无限多个区间,但她毕竟只是想走 1 米。
芝诺悖论关注的是完成旅程所需的时间,而不是覆盖的距离。如果学生被迫采取单个步伐来覆盖芝诺的每个区间,她确实会遇到一些时间上的麻烦(更不用说她还必须克服采取亚毫米步伐的困难了)!但如果她被允许以恒定速度移动而不在芝诺的想象中的检查点停下来——为什么不呢?——那么她穿越每个芝诺区间的所需时间与该区间覆盖的距离成正比,因此由于总距离是有限的,总时间也是有限的——幸运的是,对于所有人来说——运动最终还是可能的。
尽管现代极限的概念是在芝诺去世很久之后,甚至是在伯努利之后才被确立的——它出现在 19 世纪¹⁴,但它正是这一概念构成了微积分的精神,而雅各布·伯努利正是以这种精神来探讨概率与观察之间的关系。特别是,伯努利研究了在任意大量重复观察的极限情况下会发生什么。抛掷一枚(平衡的)硬币 10 次,你可能会观察到 7 次正面,但如果你抛掷 1 亿次,你很可能会接近 50%。在 20 世纪 40 年代,一位名叫约翰·凯里奇的南非数学家决定通过一个实际实验来验证这一点,他抛掷硬币的次数之多,几乎可以被认为是 1 亿次——实际上是他抛了 10,000 次,并记录了每次抛掷的结果。¹⁵ 你可能会认为凯里奇有更好的事情要做,但当时他是一名战俘,不幸的是,他在 1940 年 4 月德国入侵丹麦时正在哥本哈根访问。根据凯里奇的数据,在抛掷了 100 次之后,他只有 44%的正面,但当他达到 10,000 次时,这个数字接近了一半:50.67%。你如何量化这种现象?这个问题的答案就是伯努利的成就。
根据历史学家和科学哲学家伊恩·哈金的说法,伯努利的工作“以一种辉煌的预兆呈现在公众面前,预示了我们今天所知道的一切;它的数学深度,它的无限实用应用,它的摇摆不定和它不断引发哲学思考的特性。概率已经完全成熟。”用伯努利更为谦虚的话来说,他的研究证明是“新颖的,以及……高度有用的。”他还写道,这是一项“极其困难的”工作。¹⁶ 他为此工作了 20 年。
雅各布·伯努利称他 20 年努力的巅峰为他的“金定理”。这个定理的现代版本,尽管在技术细节上有所不同,但有着各种名称:伯努利定理、大数定律和弱大数定律。使用“大数定律”这个短语是因为,正如我们所说的,伯努利定理关注的是当我们进行大量观察时,结果如何反映潜在的几率。但我们将坚持伯努利的术语,并称他的定理为“金定理”,因为我们将以它的原始形式来讨论它。¹⁷
尽管伯努利对现实世界的应用感兴趣,但他最喜欢的例子之一涉及到了大多数家庭中找不到的物品:一个装满彩色鹅卵石的罐子。在一个场景中,他设想罐子里有 3,000 个白色鹅卵石和 2,000 个黑色鹅卵石,白色和黑色的比例为 60%对 40%。在这个例子中,你从罐子中进行一系列盲抽“带替换”——也就是说,在抽取下一个鹅卵石之前将每个鹅卵石放回,以保持 3:2 的比例不变。那么,抽取白色鹅卵石的事先概率是 5 个中的 3 个,即 60%,因此在这个例子中,伯努利的中心问题变成了,你应该多么严格地期望抽取的白色鹅卵石比例接近 60%的比例,以及这种概率是多少?
罐子例子是一个很好的例子,因为描述从罐子中抽取鹅卵石的相同数学可以用来描述任何每个试验都有两种可能结果的试验系列,只要这些结果是随机的,并且试验之间相互独立。今天,这样的试验被称为伯努利试验,一系列伯努利试验就是一个伯努利过程。当一个随机试验有两种可能结果时,通常任意标记一个为“成功”,另一个为“失败”。这种标记并不是字面上的意思,有时与日常词汇的含义无关——比如说,如果你迫不及待地想继续阅读,这本书就是一个成功,而如果你在木材烧完后用这本书来让你和你心爱的人取暖,它就是一个失败。抛硬币、决定投票给候选人 A 或 B、生男孩还是女孩、购买或不购买产品、治愈或不治愈、甚至死亡或生存都是伯努利试验的例子。具有多个结果的行动也可以建模为伯努利试验,如果你提出的问题可以用是或否的方式表达,例如“骰子是否落在数字 4 上?”或“北极还有冰吗?”因此,尽管伯努利写了关于鹅卵石和罐子的内容,但他的所有例子都同样适用于这些以及其他许多类似的情况。
理解了这一点后,我们回到那个罐子,其中 60%的鹅卵石是白色的。如果你从罐子中抽取 100 个鹅卵石(带替换),你可能会发现恰好有 60 个是白色的,但你也可能只抽到 50 个或 59 个。抽取 58%到 62%白色鹅卵石的概率是多少?如果你抽取的是 1,000 个或 1,000 万个鹅卵石,你能更有信心吗?你永远不能 100%确定,但你能否抽取足够的鹅卵石,使得抽取 59.9%到 60.1%白色鹅卵石的概率达到 99.9999%?伯努利的黄金定理解决了这些问题。
为了应用黄金定理,你必须做出两个选择。首先,你必须指定你的错误容忍度。你要求你的试验系列接近基础比例 60%的程度是多少?你必须选择一个区间,例如正负 1%、2%或 0.00001%的区间。其次,你必须指定你的不确定性容忍度。你永远不能 100%确定一个试验会得到你期望的结果,但你可以确保你会在 100 次中有 99 次或 1000 次中有 999 次得到满意的结果。
黄金定理告诉你,无论你想要在个人定义的“几乎确定”和“接近”方面有多高的要求,你总是可以抽取足够的鹅卵石,几乎可以肯定你抽取的白色鹅卵石的比例将接近 60%。它还提供了一个数值公式,用于根据这些定义计算“足够”的试验次数。
定律的第一部分是一个概念上的胜利,并且它是定理现代版本中唯一幸存的部分。关于第二部分——伯努利公式——重要的是要理解,尽管黄金定理指定了一个足够满足你的置信度和精确度目标的试验次数,但它并没有说你不能用更少的试验完成这些目标。这不会影响定理的第一部分,对于这部分来说,只需知道指定的试验次数是有限的就足够了。但伯努利也打算他公式给出的数字具有实际用途。不幸的是,在大多数实际应用中并不是这样。例如,这里有一个伯努利自己计算出的数值例子,尽管我已经改变了上下文:假设巴塞尔 60%的选民支持市长。你必须调查多少人,才能有 99.9%的几率发现市长的支持率在 58%到 62%之间——也就是说,结果在正负 2%的范围内是准确的?(为了与伯努利保持一致,假设被调查的人是随机选择的,但可以进行替换。换句话说,你可能会调查同一个人多次。)答案是 25,550 人,在伯努利时代这大约是巴塞尔的全部人口。伯努利知道这个数字不切实际。他也知道熟练的赌徒可以根据远少于数千次试验游戏的样本直观地猜测他们在新游戏中的成功机会。
伯努利数值估计与最佳值相差甚远的一个原因是他的证明基于许多近似。另一个原因是,他选择了 99.9%作为他的确定性标准——也就是说,他要求他得到的错误答案(与真实答案相差超过 2%)在 1000 次中不到 1 次。这是一个非常严格的标准。伯努利称之为道德确定性,意味着他认为一个理性的人为了做出理性决策所要求的确定性程度。也许这是衡量时代变迁的一个指标,因为我们今天已经放弃了道德确定性的概念,转而采用我们在上一章中遇到的统计显著性,意味着你的答案在 20 次中不到 1 次是错误的。
使用今天的数学方法,统计学家已经证明,在像我描述的那种调查中,通过调查仅 370 个主体,你可以实现加上或减去 5 个百分比的统计显著结果。如果你调查 1000 人,你就有 90%的把握在 2%的范围内达到真实结果(巴塞尔市长的 60%支持率)。尽管有其局限性,但伯努利的黄金定理是一个里程碑,因为它至少在原则上表明,足够大的样本几乎肯定能够反映被调查人口的构成。

在现实生活中,我们很少有机会观察任何人或任何事物在数千次试验中的表现。因此,如果伯努利需要一个过于严格的确定性标准,在现实生活中的情况下,我们常常犯相反的错误:我们假设一个样本或一系列试验能够代表基础情况,而实际上它太小,无法保证可靠性。例如,如果你在伯努利时代对巴塞尔的 5 位居民进行了调查,像我们在第四章中讨论的计算表明,你发现样本中有 60%(即 3 人)支持市长的可能性只有大约 1/3。
只有 1/3? 当你对选民样本进行调查时,市长支持者的真正百分比不应该是最可能的结果吗?事实上,1/3 确实是最可能的结果:找到 0、1、2、4 或 5 位支持者的概率低于找到 3 位支持者的概率。尽管如此,找到 3 位支持者的可能性并不大:因为存在许多非代表性的可能性,它们的组合概率加起来是准确反映人口调查结果的概率的两倍。因此,在 5 位选民的调查中,有 2/3 的情况下你会观察到“错误”的百分比。实际上,大约有 1/10 的情况下你会发现所有被调查的选民都一致认为他们是否喜欢市长。因此,如果你对 5 个样本进行调查,你可能会严重高估或低估市长的真正受欢迎程度。
这种误解——或者说错误的直觉——认为小样本能够准确反映潜在的概率,这种观点如此普遍,以至于卡尼曼和特沃斯基给它起了一个名字:小数法则。¹⁸ 小数法则实际上并不是一个法则。这是一个讽刺性的名称,描述了当数字不是很大时,错误地应用大数法则的尝试。
如果人们只将(不真实的)小数法则应用于抽屉,那么影响不会很大,但正如我们所说的,生活中的许多事件都是伯努利过程,因此我们的直觉经常导致我们误解我们所观察到的。这就是为什么,正如我在第一章中描述的,当人们观察到世界各地的 Sherry Lansings 和 Mark Cantons 等人的成功或不太成功的年份时,他们假设他们的过去表现准确地预测了他们的未来表现。
让我们将这些想法应用到我在第四章中简要提到的一个例子中:两家公司正面竞争或公司内部两名员工竞争的情况。现在想想《财富》500 强公司的首席执行官们。假设根据他们的知识和能力,每位首席执行官每年都有一定的成功概率(无论他们如何定义成功)。为了简化问题,让我们假设这些首席执行官的成功年份发生的频率与白色鹅卵石或市长支持者的频率相同:60%。(真实数字是略高还是略低并不影响这个论点的核心。)这意味着在特定的五年期间,我们应该期待首席执行官恰好有三个好年份吗?
不。正如前面的分析所示,即使首席执行官们都有 60%的成功率,在特定的五年期间,一个特定首席执行官的表现反映出这种潜在率的概率也只有 1/3!转换到《财富》500 强,这意味着在过去五年中,大约有 333 位首席执行官的表现没有反映出他们的真实能力。此外,我们应预期,仅凭偶然,大约有 1/10 的首席执行官将连续五年赢或输。这告诉我们什么?通过分析能力来判断人比仅仅看成绩单更可靠。或者,如伯努利所说,“人们不应根据其结果来评价人类行为。” ¹⁹
违反小数定律需要性格。因为虽然任何人都可以坐下来指着底线作为理由,但评估一个人的实际知识和实际能力则需要自信、思考、良好的判断力,以及,嗯,勇气。你不可能在会议上站起来对同事大喊,“不要解雇她。她只是站在了伯努利序列的错误一端。”如果你站起来说,刚刚卖掉比任何人都多的丰田凯美瑞的那位洋洋得意的家伙,“这只是随机波动。”这也不太可能赢得你的朋友。所以这种情况很少发生。高管们成功的年份被归功于他们的才华,通过敏锐的回顾性解释来解释。而当人们没有成功时,我们常常认为失败准确地反映了他们的才华和能力填充罐子的比例。
与大数定律相关的另一个错误观念是,一个事件更有可能发生或不太可能发生,因为它最近发生了或没有发生。一个事件具有固定概率,其概率根据事件最近的发生与否而增加或减少的观念被称为赌徒谬误。例如,如果 Kerrich 在前 100 次投掷中得到了 44 次正面,硬币不会偏向反面以赶上!这就是“她的运气已经用完了”和“他该赢了”这类想法的根源。这种情况不会发生。就其价值而言,一段好运气不会给你带来厄运,一段坏运气,不幸的是,也不意味着好运即将到来。尽管如此,赌徒谬误影响的人比你想象的要多,如果不是在意识层面上,那么在无意识层面上。人们期望好运随后接踵而至,或者他们担心好运之后会接踵而至。
我记得,几年前的一次巡航中,我看到一个身材矮胖的男人汗流浃背,他疯狂地将美元纸币塞进老丨虎丨机,速度之快,仿佛纸币会飞出来一样。他的同伴看到我在注视他们,简单地说,“他该赢了。”虽然我差点指出,“不,他不该赢的,”但我还是继续走。走了几步后,我因为突然的灯光闪烁、铃声响起、这对夫妇的阵阵欢呼,以及仿佛持续了数分钟、美元硬币从机器出口飞出的声音而停下来。现在我知道,现代老丨虎丨机是电脑化的,其回报由随机数生成器驱动,根据法律和规定,必须真正生成,正如广告中所说的,随机数,使得每次拉动把手完全独立于之前拉动的历史。然而……好吧,让我们说,赌徒谬误是一种强大的错觉。
伯努利在其中的手稿中提出了他的黄金定理,但结尾突然中断,尽管他之前在作品中承诺将提供应用于公民事务和经济问题的应用。历史学家、统计学家斯蒂芬·斯蒂格勒写道,这就像“伯努利在看到数字 25550 时,字面上就放弃了。”实际上,伯努利在 1705 年 8 月因“慢性发热”去世,享年五十岁。他的出版商请求约翰·伯努利完成手稿,但约翰拒绝了,说他太忙了。这看起来可能有些奇怪,但伯努利家族就是一个奇怪的家族。如果你被要求选择有史以来最令人不快的数学家,如果你指的就是约翰·伯努利,你也不会离得太远。他在历史文献中被描述为嫉妒、自负、敏感、固执、易怒、自吹自擂、不诚实和彻头彻尾的骗子。他在数学上取得了许多成就,但他也因为将他的儿子丹尼尔从科学院赶出去而闻名,丹尼尔赢得了约翰自己也曾竞争过的奖项,因为他试图窃取他哥哥和莱布尼茨的想法,以及剽窃丹尼尔的流体力学书籍,然后伪造出版日期,使他的书看起来是首先出版的。
当他被要求完成他已故哥哥的手稿时,他刚刚从荷兰的格罗宁根大学搬到巴塞尔,获得了一个不是数学教授而是希腊语教授的职位。雅各布认为这种职业转变可疑,特别是在他看来,约翰并不懂希腊语。雅各布怀疑的是,他写信给莱布尼茨说,约翰来到巴塞尔是为了篡夺雅各布的职位。确实,在雅各布去世后,约翰获得了这个职位。
约翰和雅各布在他们成年后的大部分时间里都不和。他们经常在数学出版物和信件中互相侮辱,一位数学家写道,这些信件“充满了通常只用于马贼的激烈言辞。”²¹ 因此,当需要编辑雅各布的遗著时,这项任务落在了食物链的更低一层,落在了雅各布的一个兄弟的儿子尼古拉斯·尼古拉斯身上。年轻的尼古拉斯当时只有十八岁,但他曾是雅各布的学生。不幸的是,他觉得自己无法胜任这项任务,可能部分原因是他意识到莱布尼茨反对他叔叔关于理论应用的观点。因此,这份手稿就闲置了八年。这本书最终在 1713 年以《Ars conjectandi》或《猜想的艺术》为标题出版。就像帕斯卡的《思想录》一样,它至今仍在印刷。
雅可比·伯努利曾表明,通过数学分析,人们可以了解自然系统内在隐藏的概率是如何反映在这些系统产生的数据中的。至于伯努利没有回答的问题——即如何从产生的数据中推断出事件的基本概率——这个答案要等到几十年后才会出现。
第六章
假阳性与正误谬误
在 20 世纪 70 年代,哈佛大学的一位心理学教授班上有一个长相古怪的中年学生。¹ 在我的教学经验中,尽管有些学生礼貌地来向我解释为什么他们要退我的课,但我从未有过学生感到有必要解释为什么他们会选择这门课。这可能就是为什么我可以快乐地假设,如果被问及,这样的学生会回答:“因为我对这个主题很着迷,而你是一位优秀的讲师。”但这个学生有其他原因。他说他需要帮助,因为一些奇怪的事情发生在他身上:他的妻子在他能说出之前就说出他正在想的话,现在她要和他离婚;一个同事在喝酒时随意提到了裁员,两天后,这个学生失去了工作。随着时间的推移,他报告说,他经历了数十次不幸和他认为令人不安的巧合。
最初,发生的事情让他感到困惑。然后,像我们大多数人一样,他形成了一个心理模型,试图将事件与他认为的世界运行方式相协调。然而,他提出的理论却与我们大多数人能想出的不同:他成为了精心设计的秘密科学实验的实验对象。他相信这个实验是由一个由著名心理学家 B. F. Skinner 领导的大阴谋集团策划的。他还相信,实验结束后,他会成名,甚至可能被选为高级公职。他说,这就是他选择这门课程的原因。他想学习如何在积累了大量证据的情况下测试他的假设。
课程结束后几个月,学生再次拜访了教授。他报告说,实验仍在进行中,现在他正在起诉他的前雇主,前雇主提供了一位愿意作证的 psychiatrist,称他患有偏执症。
前雇主的心理医生指出,学生的一种偏执妄想是声称发明了一位虚构的 18 世纪牧师。特别是,心理医生对学生的说法嗤之以鼻,即这位牧师是一位业余数学家,在业余时间创造了一种奇特的概率理论。据学生所说,这位牧师的名字叫托马斯·贝叶斯。学生断言,他的理论描述了如何评估在另一个事件发生的情况下某个事件发生的可能性。一个特定的学生成为实验心理学家庞大秘密阴谋的目标的可能性有多大?诚然,并不大。但如果是这样的话,如果一个人的妻子在他开口之前就说出他的想法,并且同事们在闲聊中预言他的职业命运呢?学生声称,贝叶斯的理论表明了应该如何根据新的证据调整你的初始估计。他向法庭展示了他关于假设的一系列公式和计算,结论是额外的证据意味着他有 999,999/1,000,000 的几率关于阴谋是正确的。敌对的心理医生声称,这位数学家-牧师和他的理论都是学生精神分裂症想象的产物。
学生请求教授帮助他反驳这一说法。教授同意了。他有充分的理由,因为托马斯·贝叶斯,1701 年出生于伦敦,确实是一位牧师,在特恩布里奇韦尔斯有一个教区。他于 1761 年去世,被埋葬在伦敦的一个公园里,叫做邦希尔田野,与他的父亲约书亚(也是一位牧师)同葬一墓。他确实发明了一种“条件概率”理论,以展示概率理论如何从独立事件扩展到结果相互关联的事件。例如,随机选择的人患有精神病的概率和随机选择的人相信他的配偶能读懂他的心思的概率都很低,但如果一个人相信他的配偶能读懂他的心思,那么他患有精神病的概率就高得多,同样,如果他患有精神病,那么他相信他的配偶能读懂他的心思的概率也高得多。所有这些概率是如何相互关联的?这个问题就是条件概率的主题。
教授提供了一份证词,解释了贝叶斯的存在和他的理论,尽管没有支持他前学生声称证明他精神健全的具体和可疑的计算。这个故事令人难过的地方不仅仅是中年精神分裂症患者本人,还有另一边的医疗和法律团队。遗憾的是,有些人患有精神分裂症,尽管药物可以帮助缓解疾病,但它们不能与无知作斗争。正如我们将看到的,托马斯·贝叶斯的思想的无知是许多严重的医疗诊断和法律判断错误的核心。这是一种在医生或律师的专业培训中很少被解决的问题。
我们在日常生活中也做出贝叶斯判断。一部电影讲述了一个律师的故事,他有一份很好的工作,一个迷人的妻子,一个美好的家庭。他深爱着他的妻子和女儿,但仍然觉得他的生活中缺少了什么。一天晚上,当他乘火车回家时,他注意到一个美丽的女人带着沉思的表情从舞蹈工作室的窗户向外凝视。第二天晚上,他又去找她,第三天晚上也是如此。每当他的火车经过她的工作室时,他就越来越被她迷住了。最后,在一个晚上,他冲动地冲下火车,报名参加了舞蹈课程,希望能见到她。他发现,一旦他从远处注视的目光转向面对面的接触,她那令人着迷的吸引力就消失了。然而,他确实爱上了舞蹈,而不是她。
他将他对新痴迷的保密工作做得很好,向家人和同事找借口,越来越多地晚上不回家。他的妻子最终发现,他并不像他说的那样经常加班。她认为,如果他出轨,他关于下班后活动的谎言的可能性比他没有出轨时更大,因此她得出结论,他确实出轨了。但妻子不仅在结论上犯了错误,在推理上也犯了错误:她混淆了丈夫如果出轨就会偷偷摸摸的概率和他如果偷偷摸摸就会出轨的概率。
这是一个常见的错误。比如说,你的老板回复你的电子邮件比平时慢了很多。很多人会认为这是一个迹象,表明他们的运势正在下降,因为如果他们的运势下降,老板回复电子邮件的速度可能会比以前慢。但老板回复慢可能是因为她特别忙,或者她的母亲生病了。因此,如果她回复慢,那么她的运势下降的可能性比她运势下降时老板回复慢的可能性要低得多。许多阴谋论的魅力就在于对这种逻辑的误解。也就是说,它依赖于将一系列事件发生的概率与一系列事件发生时存在巨大阴谋的概率混淆。
事件发生的概率,无论是基于其他事件发生还是给定其他事件发生,这正是贝叶斯理论的核心。为了详细了解它是如何工作的,我们将转向另一个问题,这个问题与我们第三章遇到的双胞胎问题相关。现在假设一个远房表亲有两个孩子。回想一下,在双胞胎问题中,你知道其中一个是或两个是女孩,你试图记住是哪一个——一个还是两个?在一个有两个孩子的家庭中,如果一个孩子是女孩,那么两个孩子都是女孩的概率是多少?我们在第三章没有用这种方式讨论这个问题,但“如果”这个词使得这个问题成为了一个条件概率问题。如果没有这个“如果”条款,两个孩子都是女孩的概率是 1/4,4 种可能的出生顺序是(男孩,男孩)、(男孩,女孩)、(女孩,男孩)和(女孩,女孩)。但考虑到额外的信息,即这个家庭有一个女孩,概率是 1/3。这是因为如果一个孩子是女孩,这个家庭只有 3 种可能的情景——(男孩,女孩)、(女孩,男孩)和(女孩,女孩)——而这 3 种情景中恰好有 1 种对应两个孩子都是女孩的结果。这可能是在看贝叶斯思想时最简单的方法——它们只是会计问题。首先写下样本空间——即所有可能性的列表——以及如果它们不相等时它们的概率(实际上在分析任何复杂的概率问题时这也是一个好主意)。然后,划掉条件(在这种情况下,“至少有一个女孩”)所排除的可能性。剩下的就是剩余的可能性和它们的相对概率。
这一切可能看起来都很明显。你可能会因为自信而认为没有亲爱的贝叶斯牧师的帮助也能弄懂这个问题,并誓言下次洗澡时一定要读一本不同的书。所以在我们继续之前,让我们尝试对双胞胎问题进行一点小的变体,其解决方案可能会让人有些震惊。²
变体是这样的:在一个有两个孩子的家庭中,如果一个孩子是名叫佛罗里达的女孩,那么两个孩子都是女孩的概率是多少?是的,我说的是一个名叫佛罗里达的女孩。这个名字可能听起来很随机,但事实并非如此,因为除了是著名于古巴移民、橙子和那些把大房子换成棕榈树和有组织的宾果游戏的乐趣而搬到北方的老人的州名之外,它也是一个真实的名字。事实上,在上个世纪的最初三十年左右的时间里,它是美国女性名字前 1000 名之一。我选择这个名字是相当仔细的,因为谜题的一部分是,佛罗里达这个名字的哪些方面会影响概率?但我在这里跑题了。在我们继续之前,请考虑这个问题:在名叫佛罗里达的女孩问题中,两个孩子都是女孩的概率仍然是 1/3(就像在有两个女儿的问题中一样)吗?
我将很快证明答案是否定的。其中一个女孩名叫佛罗里达的事实使得概率变成了 2:1:如果这很难想象,请不要担心。理解随机性和所有数学的关键不在于能够立即直觉到每个问题的答案,而仅仅是有工具来找出答案。

对贝叶斯存在表示怀疑的人关于一点是正确的:他从未发表过任何科学论文。我们对他的生活知之甚少,但他可能是因为自己的乐趣而追求自己的工作,并不觉得有太多必要去交流。在那方面以及其他方面,他和雅各布·伯努利是相反的。因为伯努利抵制了神学的研究,而贝叶斯则接受了它。伯努利追求名声,而贝叶斯对此不感兴趣。最后,伯努利定理关注的是如果你计划进行许多抛掷一枚平衡硬币,你期望会有多少次出现正面,而贝叶斯则研究了伯努利的原始目标,即观察了一定数量的正面后,你能有多大的把握认为硬币是平衡的。
贝叶斯今天所知名的理论是在 1763 年 12 月 23 日曝光的,当时另一位牧师兼数学家理查德·普莱斯向英国国家科学院——皇家学会宣读了一篇论文。这篇由贝叶斯撰写的论文题为“关于解决概率论问题的论文”,并于 1764 年在皇家学会的《哲学学报》上发表。贝叶斯在他的遗嘱中把这篇文章和 100 英镑留给了普莱斯。贝叶斯在写下遗嘱四个月后去世,他把普莱斯称为“我想是纽丁顿格林的传教士”。³
尽管贝叶斯只是随意提及,理查德·普莱斯并非只是一个默默无闻的传教士。他是宗教自由的热心倡导者,本杰明·富兰克林的友人,亚当·斯密委托他评论《国民财富的性质和原因的研究》草案的部分内容的人,同时也是一位著名的数学家。他还被誉为精算科学的创始人,这一领域是在 1765 年,当来自保险公司公平协会的三位男士请求他的帮助时,他开始发展的。在那次会面六年之后,他将自己著作出版成书,书名为《关于回归性支付的观察》。尽管这本书在 19 世纪中期一直是精算师的圣经,但由于一些数据和方法上的不足,他似乎低估了预期寿命。结果,膨胀的生命保险保费让公平协会的伙伴们受益。另一方面,不幸的英国政府基于普莱斯的表格进行年金支付,当养老金领取者没有按照预测的速度倒下时,政府遭受了损失。
正如我提到的,贝叶斯发展了条件概率,试图回答激发伯努利提出的问题:我们如何从观察中推断出潜在的概率?如果一种药物在临床试验中治愈了 60 位患者中的 45 位,这对你来说意味着什么,关于这种药物在下一个患者身上起作用的几率?如果它在 100 万患者中有 60 万患者身上起作用,那么它起作用的几率显然接近 60%。但是,从较小的试验中你能得出什么结论?贝叶斯还提出了另一个问题:在试验之前,如果你有理由相信这种药物只有 50%的有效性,那么新数据在你的未来评估中应该占多少权重?我们的大多数生活经历都是这样的:我们观察到一个相对较小的结果样本,从中推断信息并对产生这些结果的质量做出判断。我们应该如何进行这些推断?
贝叶斯通过一个隐喻来处理这个问题。⁴ 想象我们被提供了一张方桌和两个球。我们以使球在任何位置停下来都有相同可能性的方式将第一个球滚到桌子上。我们的任务是确定,不查看,球在左右轴上的哪个位置停下来。我们在这个任务中的工具是第二个球,我们可以以与第一个球相同的方式反复将第二个球滚到桌子上。每次滚动,合作者都会记录第二个球是否落在第一个球落下的位置的右侧或左侧。最后,他告诉我们第二个球落在两个一般位置中的总次数。第一个球代表我们希望获取信息的未知因素,第二个球代表我们设法获得的证据。如果第二个球始终落在第一个球的右侧,我们可以相当自信地认为第一个球位于桌子的远左侧。如果它落在右侧的次数不太一致,我们可能对这个结论不太自信,或者我们可能会猜测第一个球位于更右侧的位置。贝叶斯展示了如何根据第二个球的数据确定第一个球在左右轴上的任何给定点的精确概率。他还展示了在给定更多数据的情况下,如何修正最初的估计。在贝叶斯术语中,最初的估计被称为先验概率,而新的猜测被称为后验概率。
贝叶斯发明了这个游戏,因为它模拟了我们生活中所做的许多决策。在药物试验的例子中,第一个球的位置代表药物的真实有效性,而关于第二个球的报告代表患者数据。第一个球的位置也可以代表电影的吸引力、产品质量、驾驶技能、勤奋、固执、才能、能力,或者任何决定某一事业成功或失败的因素。第二个球的报告将代表我们的观察或收集到的数据。贝叶斯的理论展示了如何进行评估,并在面对新数据时调整它们。
今天,贝叶斯分析在科学和工业领域得到了广泛应用。例如,用于确定汽车保险费率的模型包括一个数学函数,该函数描述了每单位驾驶时间内,你发生零起、一起或多起事故的个人概率。为了我们的目的,考虑一个简化的模型,该模型将每个人归入两个类别之一:高风险,包括每年平均至少发生一起事故的驾驶员,和低风险,包括每年平均发生事故少于一起的驾驶员。如果你申请保险时,你的驾驶记录在过去二十年里没有发生过事故,或者有二十年的记录中发生了三十七起事故,保险公司可以相当肯定地将你归入哪个类别。但是,如果你是一个新手驾驶员,你应该被归类为低风险(一个遵守速度限制并自愿担任指定驾驶员的孩子)还是高风险(一个在主街上赛车,喝着半满的 2 美元一瓶的布恩农场苹果酒的孩子)?由于公司没有你的数据——没有“第一个球的位置”——它可能会给你分配在两个群体中的等先验概率,或者它可能会利用它对新手驾驶员总体情况的了解,并假设你是一个高风险的概率是,比如说,三分之一。在这种情况下,公司会将你建模为一个混合体——三分之一高风险和三分之二低风险——并收取相当于高风险驾驶员三分之一的价格加上低风险驾驶员三分之二的价格。然后,经过一年的观察——也就是说,在贝叶斯第二个球被投掷之后——公司可以利用新的数据重新评估其模型,调整之前分配的三分之一和三分之二的比例,并重新计算它应该收取的费用。如果你没有发生过事故,你被分配的低风险和低价格的比例将增加;如果你发生了两起事故,这个比例将减少。调整的确切大小由贝叶斯理论给出。以同样的方式,保险公司可以在以后的年份定期调整其评估,以反映你无事故或你在单行道上逆向行驶时发生两次事故的事实,左手拿着手机,右手拿着甜甜圈。这就是为什么保险公司可以发放“优秀驾驶员”折扣:事故的缺失提高了驾驶员属于低风险群体的后验概率。
显然,贝叶斯理论的许多细节相当复杂。但正如我在分析两个女儿问题时提到的,他方法的关键是利用新信息来剪枝样本空间并相应地调整概率。在两个女儿的问题中,样本空间最初是(男孩,男孩),(男孩,女孩),(女孩,男孩)和(女孩,女孩),但如果你知道其中一个孩子是女孩,那么样本空间就缩减为(男孩,女孩),(女孩,男孩)和(女孩,女孩),这样两个女孩家庭的可能性就是 1/3。让我们应用同样的简单策略,看看如果你知道其中一个孩子是名叫佛罗里达的女孩会发生什么。
在名叫佛罗里达的女孩问题中,我们的信息不仅涉及孩子的性别,而且对于女孩来说,还包括名字。由于我们的原始样本空间应该是一个所有可能性的列表,在这种情况下,它是一个性别和名字的列表。用 girl-F 表示“名叫佛罗里达的女孩”,用 girl-NF 表示“不名叫佛罗里达的女孩”,我们这样写出样本空间:(男孩,男孩),(男孩,女孩-F),(男孩,女孩-NF),(女孩-F,男孩),(女孩-NF,男孩),(女孩-NF,女孩-F),(女孩-F,女孩-NF),(女孩-NF,女孩-NF)和(女孩-F,女孩-F)。
现在,我们来看剪枝。既然我们知道其中一个孩子是名叫佛罗里达的女孩,我们可以将样本空间缩减为(男孩,女孩-F),(女孩-F,男孩),(女孩-NF,女孩-F),(女孩-F,女孩-NF)和(女孩-F,女孩-F)。这使我们又发现了一个与两个女儿问题不同的地方。在这里,因为女孩的名字是佛罗里达或不是佛罗里达的概率并不相等,所以样本空间中的所有元素的概率并不相等。
在 1935 年,这是社会保障管理局提供名字统计数据的最后一年,大约有 1/30,000 的女孩被命名为佛罗里达。⁵ 由于这个名字已经逐渐消失,为了辩论的目的,让我们假设今天女孩被命名为佛罗里达的概率是 1/1,000,000。这意味着如果我们知道一个特定女孩的名字不是佛罗里达,那没什么大不了的,但如果我们知道一个特定女孩的名字是佛罗里达,从某种意义上说,我们就中了大奖。因此,两个女孩都被命名为佛罗里达的可能性(即使我们忽略父母倾向于避免给孩子取相同名字的事实)非常小,我们可以忽略这种可能性。这使我们只剩下(男孩,女孩-F),(女孩-F,男孩),(女孩-NF,女孩-F)和(女孩-F,女孩-NF),这四个情况,在非常好的近似下,是同等可能的。
由于样本空间中有 2 个元素是两个女孩的家庭,即一半,所以答案不是 1/3——就像在两个女儿的问题中那样——而是 1/2。附加的信息——你对女孩名字的了解——产生了影响。
如果这仍然让你感到困惑,那么理解它的一个方法就是想象我们聚集在一个非常大的房间里,有 7500 万个有两个孩子的家庭,其中至少有一个是女孩。正如双胞胎问题所教给我们的,房间里将有大约 2500 万个有两个女孩的家庭和 5000 万个有一个女孩的家庭(其中 2500 万个女孩是年长的孩子,同样数量的女孩是年幼的)。接下来是修剪:我们要求只有包括名叫佛罗里达的女孩的家庭留下。由于佛罗里达是一个百万分之一的名字,大约有 500 万个有一个女孩的家庭会留下。在 2500 万个有两个女孩的家庭中,有 50 个也会留下来,其中 25 个是因为他们的第一个孩子名叫佛罗里达,另外 25 个是因为他们的年幼的女儿有这个名字。这就像女孩是彩票,名叫佛罗里达的女孩是中奖彩票。尽管有一个女孩的家庭比有两个女孩的家庭多一倍,但有两个女孩的家庭每个都有两张票,所以有一个女孩的家庭和有两个女孩的家庭在赢家中的比例将大致相等。
我已经以可能令人烦恼的详细程度描述了名叫佛罗里达的女孩问题,这种详细程度有时会让我在邻居的聚会上被列入不邀请名单。我这样做并不是因为我期望你会遇到这种情况。我这样做是因为背景很简单,同样的推理将使许多真正在生活中遇到的情况变得清晰。现在让我们谈谈其中的一些情况。
我与贝叶斯牧师最难忘的相遇是在 1989 年一个周五的下午,当时我的医生通过电话告诉我,我有 999 分之 1000 的几率在十年内死去。他补充说:“我真的很抱歉,”好像他有一些病人他会说抱歉但并不真心。然后他回答了一些关于疾病进程的问题,挂断了电话,据推测是为了给另一位病人提供他或她的周五下午新闻。很难描述甚至回忆起那个周末我是怎么过的,但让我们说,我没有去迪士尼乐园。鉴于我的死亡判决,为什么我还在这里,能够写关于它的事情?
这次冒险始于我和妻子申请人寿保险时。申请程序包括血液检测。一周或两周后,我们被拒绝了。这家总是精打细算的保险公司发送了两封内容完全相同的简短信件,除了给妻子的信中多了一个额外的词。我的信中说公司拒绝给我保险是因为“你的血液检测结果”。妻子的信中说公司拒绝她是因为“你丈夫的血液检测结果”。当增加的词“丈夫的”证明这是善良的保险公司愿意提供的关于我们无法投保的唯一线索时,我出于直觉去看医生并做了 HIV 检测。结果呈阳性。虽然我最初太震惊了,没有询问他提到的几率,但我后来了解到,他是从以下统计数据中得出我健康的 1/1000 机会的:HIV 检测在血液未感染艾滋病病毒的情况下,仅在 1/1000 的血液样本中产生阳性结果。这听起来可能和他传达的信息一样,但事实并非如此。我的医生混淆了我在非 HIV 阳性时检测呈阳性的几率与我检测呈阳性时非 HIV 阳性的几率。
要理解我的医生错误,让我们采用贝叶斯方法。第一步是定义样本空间。我们可以包括所有曾经做过 HIV 检测的人,但如果我们能使用一些关于我个人的额外相关信息,并仅考虑那些接受过检测的异性恋、非注射药物滥用、白人男性美国人,我们将得到更准确的结果。(我们稍后会看到这会产生什么样的差异。)
现在我们知道了样本空间中应该包括哪些人,让我们来分类空间中的成员。在这里,相关的类别不是男孩和女孩,而是那些检测呈阳性且 HIV 呈阳性(真阳性),那些检测呈阳性但不是阳性(假阳性),那些检测呈阴性且 HIV 阴性(真阴性),以及那些检测呈阴性但 HIV 呈阳性(假阴性)的人。
最后,我们问,每个类别中有多少人?假设我们考虑一个初始人口为 10,000。我们可以使用疾病控制与预防中心的统计数据来估计,在 1989 年,大约有 1/10,000 的异性恋、非注射药物滥用、白人男性美国人接受检测时感染了 HIV。⁶ 假设假阴性率接近 0,这意味着大约每 10,000 人中有 1 人将因感染而呈阳性。此外,由于假阳性率,正如我的医生引用的那样,是 1/1000,将有大约 10 人没有感染 HIV 但仍然会呈阳性。样本空间中的其他 9,989 名男性将呈阴性。
现在,让我们将样本空间缩减,只包括那些测试结果为阳性的人。我们最终得到 10 个假阳性者和 1 个真实阳性者。换句话说,只有 11 个测试结果为阳性的人中有一个真正感染了 HIV。我的医生告诉我,测试错误——我实际上很健康——的概率是 1,000 分之一。他应该说,“别担心,你未感染的可能性比 11 个中的 10 个要大。”在我的情况下,筛查测试显然被我的血液中存在的某些标记欺骗了,尽管这个测试旨在筛查的病毒并不存在于我的血液中。
在评估任何诊断测试时,了解假阳性率是很重要的。例如,一个能识别 99%所有恶性肿瘤的测试听起来非常令人印象深刻,但我可以轻易地设计一个能识别 100%所有肿瘤的测试。我只需报告我检查的每个人都患有肿瘤。区分我的测试与有用测试的关键统计数据是,我的测试会产生高假阳性率。但上述事件说明,仅了解假阳性率并不足以确定测试的有用性——你还必须知道假阳性率与疾病真实患病率之间的比较。如果疾病罕见,即使低假阳性率也不意味着阳性测试意味着你患有该疾病。如果疾病常见,阳性结果更有可能是具有意义的。为了了解真实患病率如何影响阳性测试的含义,让我们假设我曾是同性恋并且测试结果为阳性。假设在 1989 年的男性同性恋社群中,被检测者的感染几率大约为 1%。这意味着在 10,000 个测试结果中,我们会发现 100 个(而不是之前的 1 个)真实阳性,以及 10 个假阳性。因此,在这种情况下,阳性测试意味着我感染的可能性是 11 个中的 10 个。这就是为什么在评估测试结果时,了解你是否处于高风险群体是很好的。

贝叶斯理论表明,如果事件 B 发生,事件 A 发生的概率通常与事件 A 发生时 B 发生的概率不同。⁷ 在医学界,不考虑到这一点是一个常见的错误。例如,在德国和美国的调查研究中,研究人员要求医生估计在 40 至 50 岁之间、乳腺钼靶检查结果为阳性但实际没有癌症的无症状女性的乳腺癌概率,当 7%的钼靶检查显示癌症时。⁸ 此外,医生被告知实际发病率约为 0.8%,假阴性率约为 10%。将这些信息综合起来,可以使用贝叶斯方法确定,只有大约 9%的阳性乳腺钼靶检查是由癌症引起的。然而,在德国小组中,有三分之一的医生认为概率约为 90%,中位估计值为 70%。在美国小组中,95 位医生中有 95 位估计概率约为 75%。
在运动员的药物检测中也出现了类似的问题。在这里,经常引用但并不直接相关的数字是假阳性率。这给运动员有罪的概率提供了一个扭曲的视角。例如,玛丽·德克·斯莱尼是一位世界级的长跑运动员,1983 年世界锦标赛的 1500 米和 3000 米赛跑冠军,当她试图在 1996 年亚特兰大美国奥运选拔赛时复出时,她被指控违反了与睾酮使用一致的兴奋剂违规行为。经过各种审议,国际田联(自 2001 年起正式称为国际田径联合会)裁定斯莱尼“犯有兴奋剂违规行为”,实际上结束了她的职业生涯。根据斯莱尼案件的一些证词,她对尿检的假阳性率可能高达 1%。这可能会让许多人感到安心,认为她有罪的可能性是 99%,但正如我们所看到的,这并不正确。例如,假设有 1000 名运动员接受了检测,其中 1/10 是有罪的,当检测到有罪的运动员时,有 50%的机会揭示兴奋剂违规行为。那么,对于每 1000 名接受检测的运动员,有 100 名是有罪的,检测会指向其中的 50 名。同时,对于那 900 名无辜的运动员,检测会指向其中的 9 名。所以,阳性兴奋剂检测真正意味着的不是她有罪的概率是 99%,而是[50]/[59] = 84.7%。换句话说,你应该对斯莱尼有罪的证据有与掷骰子时 1 不会出现的概率一样多的信心。这当然留下了合理的怀疑空间,更重要的是,表明进行大规模检测(每年有 90,000 名运动员的尿液被检测)并基于这样的程序做出判断,意味着要谴责大量无辜的人。⁹
在法律界,倒置错误有时被称为检察官谬误,因为检察官经常使用这种谬误的论点来引导陪审团在没有充分证据的情况下定罪嫌疑人。以英国萨利·克拉克的案例为例。¹⁰ 克拉克的第一个孩子 11 周大时去世。死亡被报告为婴儿猝死综合症(SIDS),这是一种在婴儿死亡意外且尸检未发现死亡原因时做出的诊断。克拉克再次怀孕,这次她的婴儿在 8 周大时死亡,据报道也是 SIDS。当这种情况发生时,她被捕并被指控谋杀两个孩子。在审判中,控方请来一位专家儿科医生,罗伊·米多爵士,作证称,根据 SIDS 的罕见性,两个孩子死于 SIDS 的概率是 7300 万分之一。控方没有提供针对她的其他实质性证据。这应该足以定罪吗?陪审团认为如此,1999 年 11 月,克拉克夫人被送进监狱。
米多爵士估计,一个孩子死于 SIDS 的概率是八万五千四百三十一分之一。他通过将两个这样的因素相乘来计算他的 7300 万分之一估计,每个孩子一个因素。但这种计算假设死亡是独立的——也就是说,没有环境或遗传效应在起作用,可能会增加一个孩子死于 SIDS 的风险,一旦一个年长的兄弟姐妹已经死于 SIDS。事实上,在审判几周后,《英国医学杂志》的一篇社论中,估计两个兄弟姐妹死于 SIDS 的概率是两万七千五百万分之一。¹¹ 这些概率仍然非常低。
理解萨利·克拉克为何被错误监禁的关键再次在于考虑倒置错误:我们寻求的不是两个孩子死于婴儿猝死综合症(SIDS)的概率,而是两个已经死去的孩子死于 SIDS 的概率。在克拉克被监禁两年后,皇家统计学会对此问题发表了新闻稿,声明陪审团的裁决是基于“一种严重的逻辑错误,称为检察官谬误”。陪审团需要权衡对婴儿死亡的两种竞争性解释:SIDS 或谋杀。两个婴儿死于 SIDS 或两个婴儿被谋杀的情况都相当不可能,但在这个案例中显然已经发生了。重要的是死亡的相对可能性……,而不仅仅是 SIDS 解释的不可能性……¹²。一位数学家后来估计了一个家庭失去两个婴儿死于 SIDS 或谋杀的相对可能性。他根据现有数据得出结论,两个婴儿死于 SIDS 的可能性是死于谋杀的 9 倍。¹³
克拉克夫妇上诉此案,并为上诉聘请了自己的统计学家作为专家证人。他们上诉失败,但继续寻求对死亡的医疗解释,在这个过程中揭露了这样一个事实:为检方工作的病理学家隐瞒了第二个孩子死亡时正遭受细菌感染的事实,这种感染可能导致了婴儿的死亡。基于这一发现,法官撤销了定罪,在将近三年半后,萨莉·克拉克(Sally Clark)被释放出狱。
著名的律师和哈佛法学院教授艾伦·德肖维茨(Alan Dershowitz)也成功地运用了检察官谬误——帮助为辛普森(O. J. Simpson)在涉嫌谋杀其前妻妮可·布朗·辛普森(Nicole Brown Simpson)和一名男性同伴的审判中辩护。辛普森是一位前足球明星,他的审判是 1994-95 年间最大的媒体事件之一。警方对他有大量证据。他们在他的庄园里找到了一只血迹斑斑的手套,似乎与犯罪现场找到的手套相匹配。手套上发现的血迹与妮可的血型相符,在辛普森的白色福特野马车上、他卧室的一双袜子以及他的车道和房子里都发现了与妮可血型相匹配的血迹。此外,从犯罪现场提取的血液样本与辛普森的 DNA 相匹配。辩护方几乎无法做更多的事情,只能指责洛杉矶警察局存在种族主义——辛普森是非洲裔美国人——并批评警察的诚信和证据的真实性。
检方决定将案件的开头集中在 O. J. 对妮可的暴力倾向上。检察官在审判的前十天提交了他虐待她的历史证据,并声称这本身就足以怀疑他谋杀她。正如他们所说,“一巴掌是谋杀的前奏。”¹⁴ 防御律师利用这一策略作为他们指控欺诈的跳板,认为检察官花了两周时间试图误导陪审团,而且 O. J. 在以前场合虐待妮可的证据毫无意义。以下是德肖维茨的推理:在美国,每年有 400 万女性被丈夫和男友虐待,但根据 1992 年联邦调查局统一犯罪报告,共有 1,432 人,即每 2,500 人中就有 1 人被其丈夫或男友杀害。¹⁵ 因此,辩护方反驳说,很少数打妻子或虐待家庭伴侣的男性会继续谋杀他们。真的吗?是的。令人信服吗?是的。相关吗?不。相关的数字不是一个男人虐待妻子后继续杀害她的可能性(每 2,500 人中就有 1 人),而是被谋杀的虐待妻子被其施虐者杀害的可能性。根据 1993 年美国及其领地的统一犯罪报告,德肖维茨(或检察官)应该报告的数字是:1993 年美国被谋杀的虐待女性中,约有 90%是被其施虐者杀害的。这个统计数据在审判中没有被提及。
当宣判结果宣布的时间临近时,长途电话通话量减半,纽约证券交易所的交易量下降了 40%,估计有 1 亿人转向电视和收音机来听宣判结果:无罪。德肖维茨可能觉得误导陪审团是合理的,因为用他的话说,“法庭誓言——‘讲述真相,全部真相,只讲真相’——只适用于证人。辩护律师、检察官和法官都不需要这个誓言……事实上,可以说美国的司法体系是建立在不讲述全部真相的基础上的。”¹⁶
尽管条件概率代表了关于随机性的思想革命,托马斯·贝叶斯并非革命者,尽管他的作品在 1764 年发表在著名的《哲学学报》上,但他的工作却无人问津。因此,另一位男人,法国科学家和数学家皮埃尔-西蒙·德·拉普拉斯,承担了将贝叶斯的思想带到科学家注意力的任务,并实现了向世界揭示如何从我们观察到的结果中推断出现实世界情况下的概率的目标。
你可能还记得,伯努利定理会在你进行一系列抛硬币实验之前告诉你,如果硬币是公平的,你能有多大的把握观察到某个特定的结果。你也可能记得,它不会在你完成一系列抛硬币实验之后告诉你硬币是否是公平的。沿着同样的思路,如果你知道一个 85 岁的人活到 90 岁的可能性是⁵⁰/[50],黄金定理会告诉你在一个由 1000 人组成的群体中,有一半的 85 岁老人在接下来的五年内会去世的概率,但如果某个群体中在 85 岁生日后的五年内有半数人去世,它不能告诉你该群体中人们生存的潜在可能性是[50]/[50]有多大的可能性。或者,如果福特知道其 1%的汽车存在故障的变速箱,黄金定理可以告诉福特在一个包含 1000 辆汽车的批次中,有 10 辆或更多变速箱存在故障的概率,但如果福特在 1000 辆汽车的样本中发现 10 个故障变速箱,它并不能告诉汽车制造商平均故障变速箱的比例是 1%。在这些情况下,后者在现实生活中更有用:在涉及赌博的情况之外,我们通常不会得到关于赔率的理论知识,而是必须在观察一系列现象之后进行估计。科学家们也发现自己处于这种位置:他们通常不会寻求知道,给定一个物理量的值,测量结果以某种方式出现的概率,而是寻求在给定一系列测量值的情况下,辨别物理量的真实值。
我强调这个区别,因为它非常重要。它定义了概率论和统计学之间的基本区别:前者涉及基于固定概率的预测;后者涉及基于观察数据的概率推断。
拉普拉斯解决了那一组问题。他并不了解贝叶斯理论,因此不得不重新发明它。正如他所阐述的,问题是这样的:给定一系列测量值,你能做出的最佳猜测是什么,以及这个猜测“接近”真实值的可能性有多大,无论你对“接近”的定义有多严格?
拉普拉斯的分析始于 1774 年的一篇论文,但扩展了四十多年。他是一位聪明且有时慷慨的人,但也偶尔未经承认就借用他人的作品,并且是一个不知疲倦的自我推广者。然而,最重要的是,拉普拉斯是一个灵活的芦苇,随风弯曲,这一特点使他能够在周围动荡事件的影响下几乎不受干扰地继续他的开创性工作。在法国大革命之前,拉普拉斯获得了皇家炮兵审查员的丰厚职位,幸运的是,他审查了一位名叫拿破仑·波拿巴的十六岁有前途的候选人。当革命于 1789 年爆发时,他一度受到怀疑,但与许多人不同,他毫发无损,宣布他“对王权的不可磨灭的仇恨”,并最终从共和国赢得了新的荣誉。然后,当他的熟人拿破仑于 1804 年加冕为皇帝时,他立即放弃了共和主义,并在 1806 年被封为伯爵。波旁王朝复辟后,拉普拉斯在 1814 年版的论文《分析概率理论》中对拿破仑进行了抨击,写道:“那些渴望统治世界的帝国衰落可以通过概率计算预测,其准确性非常高。”¹⁷之前的 1812 年版是献给“伟大的拿破仑”的。
拉普拉斯的政治手腕对数学来说是个幸运,因为最终他的分析比贝叶斯的分析更为丰富和完整。在拉普拉斯的工作基础上,在下一章中,我们将离开概率领域,进入统计领域。它们的交汇点是数学和科学中最重要的曲线之一,即钟形曲线,也称为正态分布。还有与之相关的新的测量理论,这些都是下一章的主题。
第七章
测量与误差定律
不久前的一天,我的儿子阿列克谢回到家,宣布了他最近英语论文的分数。他得了 93 分。在正常情况下,我会祝贺他得了 A。而且既然这是一个低 A,我知道他有能力做得更好,我会补充说这个分数是他下次能取得更高分数的证据。但这次情况并不正常,在这种情况下,我认为 93 分的评分是对论文质量的惊人低估。这时你可能会认为前面的几句话更多地是在讲我,而不是阿列克谢。如果这样想,你就完全正确了。事实上,上面的情节完全是关于我的,因为正是我写了阿列克谢的论文。
好吧,我承认我的错误。为了辩护,我应该指出,我通常不会帮阿列谢写论文,就像我不会在他功夫课上替他挨打一样。但阿列谢来找我批评他的作品,就像往常一样,在论文截止的前一天晚上才提出请求。我告诉他我会给他回复。我继续在电脑上阅读它,首先做了一些小的修改,不值得特别记录。然后,作为一个不懈的改写者,我逐渐发现自己被卷入其中,重新排列这个,改写那个,在我完成之前,他不仅已经睡着了,而且我已经把这篇论文变成了自己的。第二天早上,我羞愧地承认我忘记保存原始版本,我告诉他直接交上我的版本。
他递给我批改过的试卷,说了几句鼓励的话。“还不错,”他对我说。“93 分其实更接近 A-而不是 A,但已经很晚了,我相信如果你当时更清醒一些,你会做得更好。”我不高兴。首先,一个十五岁的孩子说出你以前对他说过的话,这本身就让人不舒服,而且你还会觉得他的话很无聊。但除此之外,我的材料——一个至少我母亲认为的职业作家的工作——怎么会在高中英语课上得不到高分呢?显然,我并不孤单。从那时起,我听说还有另一位作家有过类似的经历,只不过他的女儿得了 B。显然,这位拥有英语博士学位的作家,为《滚石》、《男士时尚》和《纽约时报》写得很不错,但英语 101 却不行。阿列克谢试图用另一个故事来安慰我:他说,他的两个朋友曾经交了完全相同的论文。他认为这是愚蠢的,他们俩都会被停课,但那位工作过度的老师不仅没有注意到,还给了其中一篇论文 90 分(A),另一篇 79 分(C)。(除非你像我一样,有过整夜熬夜批改一大堆论文,背景播放《星际迷航》重播来打破单调的经历,这听起来才会奇怪。)
数字似乎总是带有权威的重量。这种思考,至少是潜意识中的,是这样的:如果一位老师以 100 分制来评定成绩,那么这些微小的区别肯定意味着某些东西。但是,如果十个出版商都认为第一本《哈利·波特》的手稿不值得出版,那么可怜的芬南根夫人(这不是她的真名)如何能如此精细地区分论文,以至于给一篇评 92 分,另一篇评 93 分?如果我们接受论文的质量以某种方式可以定义,那么我们仍然必须认识到,成绩不是对论文质量程度的描述,而是一种测量,而随机性影响我们的最重要的方式之一就是它对测量的影响。在论文的例子中,测量工具是老师,而老师的评估,就像任何测量一样,容易受到随机变化和错误的影响。
投票也是一种测量方式。在这种情况下,我们测量的是不仅仅有多少人在选举日支持每个候选人,而是有多少人足够关心,愿意麻烦自己去投票。这种测量中存在许多随机误差的来源。一些合法选民可能会发现他们的名字不在注册选民名单上。其他人可能会错误地投给除他们意图外的候选人。当然,在计票过程中也会出现错误。有些选票被不当接受或拒绝;其他选票则简单地丢失了。在大多数选举中,所有这些因素的总和并不足以影响结果。但在竞争激烈的选举中,这可能会发生,然后我们通常会进行一次或多次重新计票,好像我们的第二次或第三次计票会比第一次更少受到随机误差的影响。
例如,在 2004 年华盛顿州的州长选举中,尽管最初的计票结果显示共和党以 261 票的微弱优势赢得约 300 万票,但最终民主党候选人被宣布为赢家。¹ 由于原始投票计数非常接近,州法律要求进行重新计票。在这次计票中,共和党再次获胜,但只多出 42 票。没有人知道是否有人认为第一次和第二次投票计数之间 219 票的差异是新的胜利边缘的几倍,但这最终导致第三次投票计数,这次完全是“手工”进行的。42 票的胜利相当于每 70000 票中只有 1 票的优势,因此手工计票的努力可以比作让 42 个人从 1 数到 70000,然后希望他们每个人平均错误少于 1 次。不出所料,结果再次改变。这次它使民主党多出 10 票。这个数字后来在包括 700 张新发现的“丢失选票”后改为 129 票。
投票计数过程和投票过程都不完美。例如,如果由于邮局错误,每 100 名潜在选民中有 1 人没有收到带有投票地点的信件,而这 100 人中有 1 人因此没有投票,那么在华盛顿的选举中,这相当于有 300 名本会投票但因政府错误而没有投票的选民。选举,像所有测量一样,都是不精确的,因此重新计票也是如此,所以当选举结果极为接近时,我们或许应该接受它们,或者掷硬币,而不是进行一次又一次的重新计票。
测量的不精确性在 18 世纪中叶成为了一个主要问题,当时在天体物理学和数学领域工作的主要任务是解决如何将牛顿定律与月球和行星的观测运动相协调的问题。从一组不一致的测量值中产生一个单一数字的一种方法就是取平均值或均值。似乎正是年轻的艾萨克·牛顿,在他的光学研究中,首次为了那个目的使用了它。² 但正如许多事情一样,牛顿是一个例外。牛顿时代的多数科学家,以及随后的一个世纪,他们并没有取平均值。相反,他们从他们的测量值中选择一个“黄金数字”——他们认为这个数字主要是通过直觉认为是最可靠的测量结果。那是因为他们认为测量的变化不是测量过程的必然副产品,而是失败的证据——有时甚至有道德上的后果。事实上,他们很少发表同一数量的多次测量,因为他们觉得这相当于承认了一个失败的过程,并引发信任问题。但在 18 世纪中叶,潮流开始改变。计算天体的总运动,一系列几乎圆形的椭圆,今天由早熟的高中生在耳机里播放音乐时完成,这是一个简单的任务。但要描述行星运动的细微之处,不仅要考虑太阳的引力,还要考虑其他行星的引力以及行星和月球与完美球形的偏差,即使在今天也是一个困难的问题。为了实现这个目标,复杂的近似数学必须与不完美的观察和测量相协调。
另一个原因是,18 世纪末需要一种数学测量理论:从 1780 年代开始,在法国兴起了一种新的严格实验物理学模式。³ 在那个时期之前,物理学由两个独立的传统组成。一方面,数学科学家研究了牛顿运动和引力理论的精确后果。另一方面,一组有时被称为实验哲学家的人对电、磁、光和热进行了经验研究。实验哲学家——通常是业余爱好者——对科学严格方法的关注不如数学导向的研究者,因此出现了一股改革和数学化实验物理学的运动。在这场运动中,皮埃尔-西蒙·拉普拉斯再次发挥了重要作用。
拉普拉斯是通过他的法国同胞安托万-洛朗·拉瓦锡的工作而对物理科学产生兴趣的,拉瓦锡被誉为现代化学之父。⁴ 拉普拉斯和拉瓦锡共同工作了多年,但拉瓦锡在应对动荡时期的能力并不如拉普拉斯。为了筹集资金以资助他众多的科学实验,他成为了一个受国家保护的特权私人协会的成员。可能历史上没有哪个时期拥有这样的职位会激发你的同胞邀请你进入他们的家中享用一杯热腾腾的姜汁卡布奇诺,但法国大革命爆发时,这却成了一种特别沉重的凭证。1794 年,拉瓦锡与其他协会成员一同被捕,并被迅速判处死刑。他始终是一位献身的科学家,他请求时间来完成一些研究,以便后人能够使用。对此,主审法官著名地回应道:“共和国不需要科学家。”现代化学之父随即被斩首,尸体被扔进了一个集体坟墓。据说,他指示他的助手计算他断头后头部试图张嘴的单词数量。
拉普拉斯和拉瓦锡的工作,以及少数其他人的工作,特别是法国物理学家查尔斯-奥古斯丁·德·库仑的工作,他在电和磁方面进行了实验,改变了实验物理学。他们的工作还促进了 1790 年代一种新的理性度量系统的开发,即公制系统,以取代阻碍科学发展和经常导致商人之间争端的多种不同的系统。由路易十六任命的一组人开发了这个度量系统,在路易失势后,革命政府采纳了它。讽刺的是,拉瓦锡曾是该组成员之一。
天文学和实验物理学的需求意味着在 18 世纪末和 19 世纪初,数学家的大部分任务在于理解和量化随机误差。这些努力催生了一个新的领域——数学统计学,它提供了一套工具来解释来自观察和实验的数据。统计学家有时认为现代科学的发展围绕着这一发展,即测量理论的创立。但统计学也提供了工具来解决现实世界的问题,例如药物的有效性或政治家的受欢迎程度,因此对统计推理的正确理解在日常生活中的作用与在科学中一样重要。
生活就是这样一种矛盾:尽管测量总是带有不确定性,但当引用测量结果时,测量中的不确定性却很少被讨论。如果一个挑剔的交通警察告诉法官她的雷达测速仪显示你在每小时 35 英里的区域内以 39 英里的速度行驶,尽管雷达测速仪的读数通常每小时会变化几英里,但通常情况下,罚单还是会贴上。⁵ 尽管许多学生(以及他们的父母)如果这样做能将他们的数学 SAT 成绩从 598 提高到 625,他们可能会从屋顶跳下来,但很少有教育工作者谈论那些研究表明,如果你想提高 30 分,有很大机会你只需多参加几次考试就能做到。⁶ 有时,无意义的区别甚至会成为新闻。最近的一个八月,劳工统计局报告说失业率保持在 4.7%。在七月,该局报告的失业率为 4.8%。这一变化引发了像《纽约时报》这样的头条新闻:“上个月就业和工资略有增长。”⁷ 但正如《巴伦周刊》的经济编辑 Gene Epstein 所说:“仅仅因为数字发生了变化,并不意味着事物本身发生了变化。例如,任何时间失业率变动超过十分之一个百分点……这是一个如此小的变化,以至于无法判断是否真的发生了变化。”⁸ 换句话说,如果劳工统计局在八月测量失业率,然后一小时后重复测量,仅凭随机误差,第二次测量就有很大可能至少与第一次测量相差十分之一个百分点。那么《纽约时报》会以“下午 2 点就业和工资略有增长”为标题吗?
测量中的不确定性在所测量的量是主观的时更为棘手,比如像阿列克谢的英语课论文。例如,宾夕法尼亚克拉里翁大学的一组研究人员收集了 120 篇学期论文,并对其进行了程度极高的审查,你肯定知道自己的孩子的作业永远不会得到这样的待遇:每位学期论文都由八位教师独立评分。得到的成绩,从 A 到 F 的等级,有时会相差两个或更多等级。平均下来,它们相差近一个等级。⁹ 由于学生的未来往往取决于这样的判断,这种不精确性是不幸的。然而,考虑到在任何给定学院系中,教授们在方法和哲学上往往从卡尔·马克思到格罗乔·马克思无所不包,这是可以理解的。但如果我们控制这一点——也就是说,如果评分者被给予并指示遵循某些固定的评分标准呢?爱荷华州立大学的一位研究人员向一组经过他根据这些标准大量培训的修辞学和专业沟通博士研究生展示了大约 100 篇学生的论文。¹⁰ 每篇论文由两位独立的评估者按照 1 到 4 的等级进行评分。当比较分数时,评估者只有在大约一半的情况下达成一致。德克萨斯大学在分析其大学入学论文评分时也发现了类似的结果。¹¹ 即使是备受尊敬的大学委员会也只期望,当由两位评分者评估时,“92%的所有评分论文将在 6 点 SAT 论文评分量表上彼此相差±1 分。” ¹²
另一个被赋予比其应得更多信任的主观测量是葡萄酒的评分。在 20 世纪 70 年代,葡萄酒行业是一个沉睡的企业,虽然有所增长,但主要是低档瓶装酒的销售。然后,在 1978 年,一个常被归功于该行业快速增长的事件发生了:一位律师转变成自封的葡萄酒评论家,罗伯特·M·帕克小爵士,决定除了他的评论外,他还会以 100 分为满分对葡萄酒进行评分。多年来,大多数其他葡萄酒出版物也效仿了这一做法。如今,美国每年的葡萄酒销售额超过 200 亿美元,数百万的葡萄酒爱好者在把钱放在柜台上之前,会先查看葡萄酒的评分来支持他们的选择。因此,当《葡萄酒观察家》杂志将 2004 年的瓦伦蒂尼·比安奇阿根廷赤霞珠评为 90 分而不是 89 分时,这一额外的 1 分在瓦伦蒂尼·比安奇的销售额上产生了巨大的差异。¹³ 事实上,如果你在当地酒店看看,你会发现由于它们的吸引力较小,那些评分在 80 多分的葡萄酒通常是销售和打折的葡萄酒。但假设评分过程在一个小时后重复进行,那款获得 90 分的 2004 年瓦伦蒂尼·比安奇阿根廷赤霞珠葡萄酒还有多少可能性会得到 89 分呢?
在他 1890 年的著作《心理学原理》中,威廉·詹姆斯提出,葡萄酒专业知识可以扩展到判断一瓶马德拉酒是来自瓶口还是瓶底的能力。¹⁴ 在我多年来参加的葡萄酒品鉴活动中,我注意到,如果坐在左边那位留胡子的男士低声说“鼻子很棒”(意思是酒香很好),其他人很可能会附和。但如果你独立地做笔记而不进行讨论,你常常会发现那位留胡子的男士写着“鼻子很棒”,那位剃了光头的男士写着“没有鼻子”,而那位烫了波浪发的女士写着“有趣的鼻子,有香菜和新鲜晒皮革的暗示。”
从理论角度来看,有许多理由质疑葡萄酒评分的重要性。首先,味觉感知依赖于味觉和嗅觉刺激之间的复杂相互作用。严格来说,味觉来自舌头上的五种受体细胞:咸、甜、酸、苦和鲜。最后一种对某些氨基酸化合物(例如,酱油中普遍存在)作出反应。但如果味觉感知仅限于此,那么你可以仅用食盐、糖、醋、奎宁和单钠谷氨酸来模仿你最喜欢的牛排、烤土豆和苹果派盛宴,或者一份美味的肉酱意面。¹⁵ 嗅觉感知解释了为什么,如果你将两份相同的糖水溶液混合,并在其中一份中加入(无糖)草莓精华,那么它将比另一份尝起来更甜。¹⁶ 这是个问题,因为研究表明,即使是经过风味训练的专业人士也很难在混合物中可靠地识别出三个或四个以上的成分。¹⁷
期望也会影响你对味道的感知。在 1963 年,三位研究人员秘密地在白葡萄酒中加入了一点点红色食品色素,使其呈现出桃红酒的颜色。然后他们请一组专家对比未着色的葡萄酒来评价其甜度。专家们根据他们的期望,认为假桃红酒比白葡萄酒更甜。另一组研究人员给一群酿酒学学生提供了两个葡萄酒样品。这两个样品都含有相同的白葡萄酒,但其中一个样品添加了一种无味的葡萄花青素染料,使其看起来像是红酒。学生们也根据他们的期望感知到了红葡萄酒和白葡萄酒之间的差异。¹⁸ 在 2008 年的一项研究中,一组志愿者被要求对五瓶葡萄酒进行评分,其中一瓶标价为 90 美元,另一瓶标价为 10 美元,尽管狡猾的研究人员已经在这两瓶瓶子里都装了相同的葡萄酒。更重要的是,这项测试是在受试者在磁共振扫描仪中扫描大脑时进行的。扫描显示,当受试者饮用他们认为更贵的葡萄酒时,大脑中编码我们愉悦体验的区域确实更加活跃。¹⁹ 但在评判品酒师之前,考虑这一点:当一位研究人员询问 30 位可乐饮用者他们更喜欢可口可乐还是百事可乐,然后让他们通过品尝两种品牌的可乐来测试他们的偏好时,30 人中有 21 人报告说,味道测试证实了他们的选择,尽管这位狡猾的研究人员将可口可乐放在百事可乐瓶子里,反之亦然。²⁰ 当我们进行评估或测量时,我们的大脑并不完全依赖于直接的感知输入。它们还整合了其他信息来源——比如我们的期望。
品酒师也常常被期望偏差的另一方面所欺骗:缺乏上下文。将一块芥末放在你的鼻孔下,你不太可能把它误认为是丁香,也不会把丁香误认为是,比如说,你鞋子里的东西。但如果你闻到的是清澈的液体气味,所有的赌注都取消了。在没有上下文的情况下,你很可能把气味搞混。至少这是当两位研究人员向专家展示一系列 16 种随机气味时发生的情况:专家们大约每 4 种气味中就有 1 种被误认。²¹
考虑到所有这些怀疑的理由,科学家们设计了直接测量葡萄酒专家味觉辨别能力的方法。一种方法是使用葡萄酒三角形。它不是一个物理三角形,而是一种隐喻:每位专家都会被提供三种葡萄酒,其中两种是相同的。任务是选择出不同的样本。在一项 1990 年的研究中,专家们只有三分之二的时间能识别出不同的样本,这意味着在三分之一的味觉挑战中,这些葡萄酒大师无法区分出带有“充满野草莓、丰盈的黑莓和树莓的浓郁香气”的黑皮诺与带有“独特的干梅子、黄色樱桃和丝滑的加斯酒”气味的黑皮诺。²² 在同一项研究中,一组专家被要求根据 12 个成分(如酒精含量、单宁的存在、甜度和果味)对一系列葡萄酒进行排名。专家们在 12 个成分中的 9 个上存在显著分歧。最后,当被要求根据其他专家提供的描述来匹配葡萄酒时,受试者只有 70%的时间是正确的。
葡萄酒评论家们对所有的这些困难都心知肚明。“在许多层面上……[评分系统]是毫无意义的,”《葡萄酒与烈酒杂志》的编辑说。²³ 根据一位前《葡萄酒爱好者》的编辑的说法,“你越深入其中,就越意识到这一切是多么的误入歧途和误导。”²⁴ 尽管如此,评分系统仍然盛行。为什么?评论家们发现,当他们试图用星级系统或诸如好、坏以及可能还有丑这样的简单文字描述来概括葡萄酒的品质时,他们的观点缺乏说服力。但是,当他们使用数字时,消费者们就会崇拜他们的评价。尽管数字评分存在疑虑,但它们让消费者们确信,他们可以从众多葡萄酒品种、制造商和年份中挑选出那根金针(或者根据他们的预算挑选银针)。
如果一种葡萄酒——或者一篇文章——确实存在某种可以通过数字来概括的质量,那么测量理论必须解决两个关键问题:我们如何从一系列不同的测量中确定这个数字?在有限的测量范围内,我们如何评估我们的判断是正确的概率?我们现在转向这些问题,因为无论数据来源是客观的还是主观的,它们的答案都是测量理论的目标。
理解测量的关键在于理解由随机误差引起的数据变化的本质。假设我们向十五位评论家提供多种葡萄酒,或者我们向一位评论家在不同日子重复提供相同的葡萄酒,或者我们两者都做。我们可以通过平均分或平均数来整洁地总结这些意见。但不仅仅是平均值重要:如果十五位评论家都认为这款酒是 90 分,这传达了一个信息;如果评论家给出的评分是 80、81、82、87、89、89、90、90、90、91、91、94、97、99 和 100,这传达了另一个信息。这两组数据具有相同的平均值,但它们在偏离平均值的大小上有所不同。由于数据点的分布方式是如此重要的信息,数学家创造了一个数值度量来描述它。这个数字被称为样本标准差。数学家还通过其平方来衡量变化,这被称为样本方差。
样本标准差描述了一组数据与平均值之间的接近程度,或者从实际的角度来说,数据的不确定性。当它较低时,数据会接近平均值。例如,对于所有酒评家都给出了 90 分的葡萄酒数据,样本标准差为 0,这告诉你所有数据都与平均值完全相同。然而,当样本标准差较高时,数据就不会围绕平均值聚集。对于上述从 80 到 100 分的葡萄酒评分集合,样本标准差为 6,这意味着大多数评分都在平均值上下 6 分之内。在这种情况下,你真正能说的关于这瓶酒的就是它可能介于 84 分和 96 分之间。
在判断他们测量的意义时,18 世纪和 19 世纪的科学家面临着与怀疑的酒鬼相同的问题。因为如果一组研究人员进行了一系列观察,结果几乎总是会有所不同。一位天文学家可能遭受了不利的气象条件;另一位可能被微风打扰;第三位可能刚刚从威廉·詹姆斯的梅多酒品尝中回来。1838 年,数学家和天文学家 F. W. Bessel 将每项天文观测中发生的十一类随机误差进行了分类。即使是一位天文学家进行重复测量,不可靠的视力或温度对仪器的影响等变量也会导致观察结果的变化。因此,天文学家必须了解,在一系列不一致的测量中,他们如何确定一个物体的真实位置。但仅仅因为酒鬼和科学家面临相同的问题,并不意味着他们可以共享其解决方案。我们能否识别随机误差的一般特征,或者随机误差的特征是否取决于上下文?
最早暗示不同测量集具有共同特征的是雅各布·伯努利的外甥丹尼尔。1777 年,他将天文观测中的随机误差比作弓箭飞行中的偏差。在两种情况下,他认为,目标——测量量的真实值或靶心——应该位于中心附近,观测结果应该围绕它聚集,更多的结果接近内圈,而较少的结果偏离目标更远。他提出的描述分布的定律并未证明是正确的,但重要的是,弓箭手误差的分布可能反映了天文观测误差的分布。
误差分布遵循某种普遍规律,有时称为误差定律,这是测量理论的基础。其神奇之处在于,在满足某些非常常见的条件的情况下,任何基于测量值确定真实值的确定都可以通过单一数学分析来解决。当采用这种普遍规律时,基于一组天文学家测量值确定天体真实位置的问题等同于仅根据箭孔确定靶心位置的问题,或者根据一系列评分确定酒的质量。这就是为什么数学统计学是一个连贯的学科,而不仅仅是技巧的集合:无论你的重复测量是旨在确定圣诞节早晨 4 点的木星位置,还是从装配线下来的葡萄干面包的重量,误差的分布都是相同的。
这并不意味着随机误差是唯一可能影响测量的误差类型。如果一半的葡萄酒评论家只喜欢红葡萄酒,另一半只喜欢白葡萄酒,但他们其他方面都完全一致(并且完全一致),那么特定葡萄酒获得的评分就不会遵循误差定律,而是由两个尖锐的峰值组成,一个是由于红葡萄酒爱好者,另一个是由于白葡萄酒爱好者。但即使在可能不适用该定律的情况下,从职业橄榄球比赛的点差²⁵到智商评分,误差定律通常仍然适用。许多年前,我得到了一些朋友为八岁和九岁的孩子设计的消费者软件程序的注册卡。软件的销量没有达到预期。谁在购买它?经过一些统计后,我发现最多用户出现在七岁,这表明一个不受欢迎但并非意外的不匹配。但真正引人注目的是,当我制作了一个条形图,显示了买家年龄偏离七岁的平均值时买家数量的减少,我发现图表呈现出一个非常熟悉的形状——误差定律的形状。
猜测弓箭手和天文学家、化学家和营销人员会遇到相同的错误定律是一回事;而发现这个定律的具体形式则是另一回事。由于分析天文数据的需要,像丹尼尔·伯努利和拉普拉斯这样的科学家在 18 世纪末提出了一系列有缺陷的候选方案。结果证明,描述错误定律的正确数学函数——正态分布——一直就在他们鼻子底下。在几十年前,这个函数已经在伦敦的另一个背景下被发现了。
在揭开正态分布重要性过程中的三个人中,其发现者是最少得到认可的人。亚伯拉罕·德·莫弗的突破发生在 1733 年,当时他已年近六十,直到五年后他的书《概率论》第二版出版才公之于众。德·莫弗是在寻找一个近似值,以描述帕斯卡三角形的底部区域,即我截断的地方下方数百或数千行中的数字时,发现了这个曲线。为了证明他版本的大数定律,雅各布·伯努利不得不处理那些行中出现的某些数字的性质。这些数字可以非常大——例如,帕斯卡三角形的第 200 行中的一个系数有五十九位数字!在伯努利的时代,以及在计算机出现之前的那些日子里,这样的数字显然很难计算。这就是为什么,正如我所说的,伯努利通过使用各种近似值来证明他的大数定律,这降低了他的结果的实用价值。有了他的曲线,德·莫弗能够对系数做出更好的近似,从而大大改进了伯努利的估计。
如果你像我处理登记卡那样,用条形图上的柱高来表示三角形的某一行中的数字,那么德·莫弗得出的近似值就会很明显。例如,三角形的第三行中的三个数字是 1、2、1。在它们的条形图中,第一根柱子上升一个单位;第二根是那个高度的两倍;第三根又是一个单位。现在看看第五行中的五个数字:1、4、6、4、1。那个图将会有五个柱子,再次从低处开始,在中间达到峰值,然后对称地下降。三角形中非常低的系数会导致具有许多柱子的条形图,但它们的行为方式相同。帕斯卡三角形的第 10 行、第 100 行和第 1,000 行的条形图在第七章中展示。
如果你绘制一条连接每个条形图上所有条形顶部的曲线,它将呈现出一个特征形状,一个接近钟形的形状。如果你稍微平滑一下曲线,你可以为它写出一个数学表达式。这个平滑的钟形曲线不仅仅是帕斯卡三角形中数字的视觉表示;它是一种获取三角形下线中数字准确且易于使用的估计的方法。这是德莫弗的发现。
今天,正态分布通常被称为正态分布,有时也称为高斯分布(我们稍后会看到这个术语的起源)。正态分布实际上不是一个固定的曲线,而是一系列曲线,其中每一条曲线都依赖于两个参数来设置其特定的位置和形状。第一个参数决定了其峰值的位置,在第七章的图表中分别是 5、50 和 500。第二个参数决定了曲线的扩散程度。尽管它直到 1894 年才得到现代名称,但这种度量被称为标准差,它是我在前面提到的概念的理论对应物,即样本标准差。粗略地说,它是曲线在曲线大约是其最大高度 60%的点处的宽度的一半。今天,正态分布的重要性远远超出了作为帕斯卡三角形中数字近似的使用。事实上,它是数据分布最普遍的方式。
当用来描述数据的分布时,正态分布描述了当你进行许多观察时,大多数观察值会围绕均值分布,这个均值由曲线的峰值表示。此外,由于曲线在两侧对称地向下倾斜,它描述了观察值数量在均值上方和下方如何相等减少,最初相当急剧,然后逐渐减少。在遵循正态分布的数据中,大约 68%(大约三分之二)的观察值将落在均值 1 个标准差范围内,大约 95%在 2 个标准差范围内,99.7%在 3 个标准差范围内。

上图中柱状图表示帕斯卡三角形的第 10 行、第 100 行和第 1000 行的条目相对大小(参见第四章)。水平轴上的数字表示柱状图中的哪个条目。按照惯例,这种标记从 0 开始,而不是从 1 开始(中间和底部的图表已被截断,以便不显示条形高度可忽略不计的条目)。
为了可视化这一点,请查看第七章中的图表。在这个表格中,用方块标记的数据是 300 名学生做出的猜测,每位学生观察了一系列 10 次硬币翻转。²⁶水平轴上绘制的是正确猜测的数量,从 0 到 10。垂直轴上绘制的是达到该数量正确猜测的学生数量。曲线呈钟形,以 5 次正确猜测为中心,此时其高度对应大约 75 名学生。曲线下降到其最大高度的三分之二左右,对应大约 51 名学生,大约位于左侧 3 和 4 次正确猜测之间以及右侧 6 和 7 次之间。这种标准偏差大小的钟形曲线是随机过程(如猜测硬币翻转结果)的典型特征。
同一张图表还显示了另一组数据,用圆圈标记。这组数据描述了 300 位共同基金经理的表现。在这种情况下,水平轴代表的不是正确猜测硬币翻转的结果,而是基金经理在 10 年中(超过组平均水平的年数)。注意这种相似性!我们将在第九章中回到这个问题。
要了解正态分布如何与随机误差相关联,一个好的方法是考虑民意调查或抽样的过程。你可能还记得我在第五章中描述的关于巴塞尔市市长受欢迎程度的民意调查。在那个城市,一定比例的选民支持市长,而另一部分选民反对。为了简化,我们假设两者都是 50%。正如我们所见,参与民意调查的人可能不会完全反映这个 50/50 的分裂。事实上,如果询问了N名选民,那么任何给定数量的选民支持市长的可能性与帕斯卡三角形的第N行的数字成正比。因此,根据德莫弗的工作,如果民意调查员对大量选民进行民意调查,不同民意调查结果的概率可以用正态分布来描述。换句话说,大约 95%的时间里,他们在民意调查中观察到的支持率将落在真实支持率的 2 个标准差范围内,即 50%。民意调查员使用“误差范围”这个术语来描述这种不确定性。当民意调查员告诉媒体一个民意调查的误差范围是正负 5%时,他们的意思是,如果他们多次重复进行民意调查,那么在 20 次中有 19 次(95%)的结果将在大约 5%的正确答案范围内。(尽管民意调查员很少指出这一点,但这也意味着,当然,大约有 1 次在 20 次中结果将非常不准确。)一般来说,100 个样本的误差范围对于大多数目的来说太大。另一方面,1000 个样本通常会产生大约 3%的误差范围,这对于大多数目的来说已经足够了。

抛硬币猜测与股票挑选成功率比较
在评估任何类型的调查或民意测验时,重要的是要意识到,当它们被重复进行时,我们应该预期结果会有所变化。例如,如果现实中 40%的登记选民赞同总统处理工作的方式,那么六次独立的调查报告出 37、39、39、40、42 和 42 这样的数字的可能性,远大于所有六次调查都一致认为总统的支持率是 40%。(这六个数字实际上是 2006 年 9 月前两周对总统工作满意度进行的六次独立民调的结果。)²⁷ 这也是为什么,作为另一个经验法则,误差范围内的任何变化都应该被忽略。但尽管《纽约时报》不会刊登“下午 2 点就业和工资略有增加”的标题,类似的标题在政治民调报道中却很常见。例如,2004 年共和党全国代表大会之后,CNN 报道了标题“布什似乎获得适度反弹”。²⁸ CNN 的专家接着解释说,“布什的代表大会反弹似乎为 2 个百分点……说他是总统人选的潜在选民比例从大会前的 50%上升到大会后的 52%。”只有后来记者才提到,这次民调的误差范围是±3.5 个百分点,这意味着新闻快讯基本上是没有意义的。显然,在 CNN 的用语中,“似乎”意味着“实际上不是”。
对于许多民意调查来说,误差率超过 5%被认为是不可接受的,然而在我们的日常生活中,我们基于比这少得多的数据点做出判断。人们无法玩上 100 年的职业篮球,投资 100 栋公寓楼,或者创办 100 家巧克力曲奇饼公司。因此,当我们评价他们在这些企业中的成功时,我们只是基于几个数据点来评价。一支足球队是否应该花费 5000 万美元来吸引一个刚刚打破记录的球员?那位想要你的钱来确保成功的股票经纪人再次取得早期成功的可能性有多大?那位富有的海猴子发明家成功意味着他有很大的机会在新想法上取得成功,比如隐形金鱼和即时青蛙?(记录在案,他没有。)²⁹ 当我们观察到一个成功或失败时,我们是在观察一个数据点,这是从代表之前存在的潜在性的正态分布中抽取的一个样本。我们无法知道我们的单个观察结果代表的是平均值还是异常值,是一个值得下注的事件还是一种不太可能重现的罕见事件。但至少我们应该意识到,样本点只是一个样本点,而不仅仅将其简单地视为现实,我们应该将其置于产生它的标准差或可能性分布的背景下进行观察。这瓶酒可能被评为 91 分,但如果我们没有关于如果相同的酒被反复评分或由其他人评分时可能发生的变化的估计,这个数字就没有意义。例如,几年前,当《企鹅澳大利亚葡萄酒指南》和《葡萄酒》的《澳大利亚葡萄酒年鉴》都回顾了 1999 年的 Mitchelton Blackwood Park Riesling 时,企鹅指南给了这瓶酒五星级,并称其为“企鹅年度最佳葡萄酒”,而《葡萄酒》杂志则将其评为所有它所评酒中的最低分,认为这是十年中生产的最差的年份。³⁰ 正态分布不仅帮助我们理解这种差异,而且还使无数统计应用成为可能,这些应用今天在科学和商业中得到了广泛应用——例如,当制药公司评估临床试验结果是否显著时,制造商评估样本零件是否准确反映了缺陷零件的比例,或者营销人员决定是否根据研究调查的结果采取行动。
正态分布描述测量误差分布的认识是在德莫瓦弗的工作几十年后才出现的,这位名字有时与钟形曲线联系在一起的人,是德国数学家卡尔·弗里德里希·高斯。正是在研究行星运动问题时,高斯得出了那个认识,至少就天文学测量而言。然而,高斯的“证明”,根据他后来的自我承认,是无效的。³¹ 此外,它的深远后果也逃过了他。因此,他将这个定律不引人注目地放入了一本名为《关于太阳周围圆锥截面运动的恒星运动的运动理论》的书的结尾部分。在那里,它可能已经死去,只是堆积在废弃的误差定律提案中的一项。
是拉普拉斯从默默无闻中提炼出了正态分布。他在 1810 年遇到了高斯的工作,那时他刚刚阅读了一篇提交给科学院的论文,这篇论文证明了被称为中心极限定理的一个定理,该定理指出,大量独立随机因素之和取任何给定值的概率是按照正态分布分布的。例如,假设你烤了 100 个面包,每次都按照一个旨在生产重 1000 克的面包的食谱来做。由于偶然,你有时会多加或少加一点面粉或牛奶,或者在烤箱中多蒸发或少蒸发一点水分。如果在最后,无数可能的原因中每一个都增加或减少了几克,中心极限定理表明,你面包的重量将按照正态分布变化。在阅读高斯的工作后,拉普拉斯立刻意识到他可以利用它来改进自己的工作,并且他的工作可以提供一个比高斯更好的论据来支持正态分布确实是误差定律的观点。拉普拉斯急忙出版了他关于该定理的短续篇。如今,中心极限定理和大数定律是随机理论中最著名的两个结果。
为了说明中心极限定理如何解释为什么正态分布是正确的误差定律,让我们重新考虑丹尼尔·伯努利关于射箭者的例子。在一个愉快的酒宴和成年人的陪伴之后,我扮演了射箭者的角色。那天晚上,我的小儿子尼古拉递给我一把弓和一支箭,并挑战我射掉他头上的苹果。箭头有一个软泡沫尖端,但仍然有理由分析我可能出现的误差及其可能性。出于明显的原因,我主要关注垂直误差。误差的简单模型是这样的:每个随机因素——比如瞄准误差、空气流的影响等等——都会使我的射击在垂直方向上偏离目标,要么偏高要么偏低,概率相等。我的瞄准总误差将是这些误差的总和。如果我很幸运,大约一半的误差成分会使箭向上偏移,另一半向下偏移,我的射击最终会正中靶心。如果我不幸(或者更确切地说,如果我的儿子不幸),所有的误差都会向一个方向累积,我的瞄准将偏离很远,要么偏高要么偏低。相关的问题是,误差相互抵消的可能性有多大,或者它们累积到最大值的可能性有多大,或者它们在两者之间取任何其他值的可能性有多大?但这只是一个伯努利过程——就像抛硬币并询问抛掷结果出现特定数量正面的可能性。答案可以用帕斯卡三角形来描述,或者如果涉及许多试验,则可以用正态分布来描述。在这种情况下,这正是中心极限定理告诉我们的。(结果,我既没有射中苹果也没有射中儿子,但撞倒了一杯非常好的卡本内红酒。)
到 19 世纪 30 年代,大多数科学家已经相信每一次测量都是一个复合体,受到大量偏差来源的影响,因此受到误差定律的影响。因此,误差定律和中心极限定理使得对数据及其与物理现实的关系有了新的、更深入的理解。在接下来的一个世纪里,对人类社会感兴趣的学者们也掌握了这些思想,并惊讶地发现人类特征和行为的变化往往显示出与测量误差相同的模式。因此,他们试图将误差定律的应用从物理学扩展到一门新的关于人类事务的科学。
第八章
混沌中的秩序
在 20 世纪 60 年代中期,一位名叫让娜·卡门(Jeanne Calment)的法国老妇人,已经九十多岁,生活急需用钱,她与一位四十七岁的律师达成了一项交易:她以每月低额生活津贴的价格将她的公寓卖给了他,并约定在她去世后停止支付,到那时她会被人抬出去,他可以搬进去。¹ 律师肯定知道卡门女士已经超过了法国人的平均寿命超过十年。然而,他可能并不了解贝叶斯定理,也不知道相关的问题不是她是否应该在十年内死亡,而是鉴于她已经活到九十岁,她的预期寿命大约还有六年。² 尽管如此,他必须感到安心地相信,任何作为青少年在父亲店里见过文森特·梵高(Vincent van Gogh)的女人很快就会在来世与梵高相遇。(据记载,她认为这位艺术家“脏兮兮的,穿着邋遢,令人不悦。”)
十年后,律师可能已经找到了另一个住处,因为让娜·卡门在健康的状态下庆祝了她的 100 岁生日。尽管那时她的预期寿命大约还有两年,但她仍然在律师的资助下活到了 110 岁。到那时,律师已经 67 岁了。但他的漫长等待又过了十年才结束,而结果并不是他所预期的。1995 年,律师本人去世,而让娜·卡门仍然活着。她的最终清算日终于于 1997 年 8 月 4 日到来,享年 122 岁。她去世时的年龄比律师去世时的年龄多四十五岁。
个人的寿命和生活是不可预测的,但当从群体中收集数据并大量分析时,就会出现规律的模式。假设你已经安全驾驶了二十年。然后在一个不幸的下午,当你和配偶以及岳父母在魁北克度假时,你的岳母大声喊道:“小心那只驼鹿!”然后你转向一个写着类似内容的警告标志。对你来说,这次事件会感觉像是一个奇怪而独特的事件。但正如标志的需求所表明的,在成千上万的驾驶员中,一定比例的驾驶员可以预料会遇到驼鹿。事实上,一个随机行动的人的统计集合往往表现出与追求有意识目标的人群一样一致和可预测的行为。或者,正如哲学家伊曼努尔·康德在 1784 年所写:“每个人根据自己的倾向追求自己的目标,常常与别人相反;然而,每个人和人民,就像遵循某种引导线索一样,朝着自然但对他们来说却未知的目标前进;他们都在为此努力,即使他们知道这一点,也不会太重视它。” ³
根据联邦公路管理局的数据,例如,美国大约有 2 亿名驾驶员。⁴ 根据国家公路交通安全管理局的数据,在最近的一年里,这些驾驶员总共驾驶了大约 2.86 万亿英里。⁵ 这大约是每人 14,300 英里。现在假设全国每个人都决定第二年再次达到这个总数会很有趣。让我们比较两种可能被用来实现这一目标的方法。在方法 1 中,政府实施了一个配给制度,利用国家科学基金会的一个超级计算中心来分配个人里程目标,以满足 2000 万驾驶员的需求,同时保持之前的年度平均数 14,300 英里。在方法 2 中,我们告诉驾驶员不要为此感到焦虑,他们可以随心所欲地驾驶,无论他们去年开了多远。如果比利·鲍伯叔叔,以前在酒类商店步行上班,决定改为在德克萨斯州西部作为散装枪支批发商行驶 10 万英里,那也行。如果简·表妹在曼哈顿,在街道清洁日绕街区寻找停车位,记录了大部分里程,然后结婚搬到了新泽西州,我们也不会为此担心。哪种方法更接近每人 14,300 英里的目标?方法 1 无法测试,尽管我们对汽油配给制的有限经验表明,它可能不会很有效。另一方面,方法 2 实际上被实施了——也就是说,在第二年,驾驶员随心所欲地驾驶,没有试图达到任何配额。他们做得怎么样?根据国家公路交通安全管理局的数据,那一年美国驾驶员驾驶了 2.88 万亿英里,每人 14,400 英里,仅比目标高出 100 英里。更重要的是,这 2000 万驾驶员在两年内(42,815 比 42,643)的死亡人数也几乎相同。
我们将随机性与混乱联系在一起。然而,尽管 2000 万驾驶员的生活不可预测,但总体来看,他们的行为几乎无法证明比更有序。如果我们考察人们如何投票、购买股票、结婚、被告知走开、误寄信件,或者在去他们最初不想去的会议的路上坐在交通中,或者测量他们腿的长度、脚的大小、臀部的宽度或啤酒肚的宽度,我们就能找到类似的规律性。19 世纪的科学家们深入研究新可获得的社会数据时,无论他们看哪里,生活的混乱似乎都产生了可量化和可预测的模式。但让他们感到惊讶的不仅仅是规律性,还有变化的性质。他们发现,社会数据通常遵循正态分布。
人类特征和行为的变异性分布类似于弓箭手瞄准时的误差,这一观点引导了一些 19 世纪的科学家去研究人类存在之箭所瞄准的目标。更重要的是,他们试图理解有时会移动目标的社会和物理原因。因此,数学统计学这一旨在帮助科学家进行数据分析的领域,在截然不同的领域——即社会性质的研究领域——得到了繁荣发展。
统计学家至少从 11 世纪开始就在分析生命的数据,当时威廉一世征服者委托进行了实际上是最早的国家人口普查。威廉在 1035 年开始统治,当时年仅七岁,继任他的父亲成为诺曼底公爵。正如他的绰号所暗示的那样,威廉二世公爵喜欢征服,1066 年他入侵英格兰。到了圣诞节,他已经能够给自己送上一份礼物——加冕为王。他的快速胜利给他留下了一个小问题:他究竟征服了谁,更重要的是,他能够对新的臣民征收多少税?为了回答这些问题,他派遣检查员前往英格兰的每个角落,记录每一块土地的大小、所有权和资源。⁶ 为了确保他们做得正确,他又派遣了一组检查员来复制第一组检查员的工作。由于税收是基于土地及其用途,而不是人口,检查员们做出了英勇的努力,统计了每一头牛、猪和猪,但并没有收集到关于那些清理粪便的人们的太多数据。即使人口数据是相关的,在中世纪,关于人类最关键的统计数据——他们的寿命和疾病——的统计调查会被认为与传统基督教的死亡观念不符。根据那个教条,将死亡作为推测的对象是错误的,几乎是对上帝的亵渎,寻找支配它的规律是几乎不可饶恕的。因为无论一个人是因为肺部感染、胃痛还是一块撞击力超过他颅骨压缩强度的石头而死亡,他或她死亡的真实原因都被认为是上帝的意志。几个世纪以来,这种宿命论的态度逐渐让位,转而接受一种对立的观点,即通过研究自然和社会的规律性,我们并不是在挑战上帝的权威,而是在了解他的方式。
在这一观念转变的大步中,16 世纪是一个重要的转折点,当时伦敦市长下令编制每周的“死亡统计表”,以记录教区牧师记录的洗礼和葬礼。几十年来,这些统计表是零散编制的,但在 1603 年,即瘟疫最严重的年份之一,城市开始实行每周统计。大陆上的理论家们对充满数据的死亡统计表嗤之以鼻,认为这是英国特有的,且用处不大。但有一位与众不同的英国人,一个名叫约翰·格兰特的店主,这些统计表讲述了一个引人入胜的故事。⁷
格兰特和他的朋友威廉·佩蒂被称为统计学的奠基人,这个领域有时被认为在纯数学家眼中是低俗的,因为它关注的是日常实际问题,从这个意义上说,格兰特尤其适合作为奠基人。因为与一些发展概率论的业余爱好者——医生卡尔达诺、法学家费马或牧师贝叶斯——不同,格兰特是一个普通观念的卖家:纽扣、线、针和其他用于家庭的细小物品。但格兰特不仅仅是一个纽扣商人;他是一位富有的纽扣商人,他的财富使他有闲暇去追求与服装固定工具无关的兴趣。这也使他能够与当时的一些最伟大的知识分子交朋友,包括佩蒂。
格兰特从死亡统计表中得出的一个推论是关于饿死的人数。1665 年,这个数字报告为 45 人,仅是因死刑死亡人数的两倍。相比之下,有 4,808 人死于肺病,1,929 人死于“斑点热和紫斑病”,2,614 人死于“牙齿和寄生虫”,68,596 人死于瘟疫。为什么当伦敦“充斥着乞丐”时,饿死的人却如此之少?格兰特得出结论,民众必须是在喂养饥饿的人。因此,他提出国家提供食物,这样既不会给社会带来任何成本,又能使 17 世纪的伦敦街道上没有他们的乞丐和擦车人。格兰特还对瘟疫传播的两种主要理论发表了看法。一种理论认为疾病是通过恶臭空气传播的;另一种理论认为是从一个人传给另一个人的。格兰特研究了每周死亡记录,并得出结论,数据的波动太大,不可能完全是随机的,正如他预期的那样,如果人与人之间的理论是正确的。另一方面,由于天气每周都在不规则地变化,他认为波动数据与恶臭空气理论是一致的。结果,伦敦还没有准备好建立 soup kitchens(公共食堂),如果伦敦人避免丑陋的老鼠而不是恶臭的空气,他们可能会过得更好,但格兰特的重大发现并不在于他的结论。而是在于他意识到,统计学可以从统计数据中提供对系统的洞察。
彼蒂的工作有时被认为预示着古典经济学的兴起。⁸ 彼蒂相信国家的强大取决于其国民的数量和素质,并以此反映国家的实力,他运用统计推理来分析国家问题。通常,他的分析都是从主权者的角度出发,将社会成员视为可以任意操纵的对象。关于瘟疫,他指出应该花钱预防,因为,在挽救生命的同时,王国可以保留社会在培养男女成熟方面的大量投资,因此会获得比在最有利可图的替代投资更高的回报。至于爱尔兰人,彼蒂并不那么仁慈。例如,他得出结论,英国人的经济价值高于爱尔兰人,因此,如果除了少数牧牛人外,所有爱尔兰人都被强制迁移到英格兰,王国的财富将会增加。事实上,彼蒂自己的财富正是来自那些爱尔兰人:在 1650 年代的入侵英国军队中,他负责评估战利品,并评估自己可以为自己抢到一大份,他确实这样做了。⁹
如果,如彼蒂所信,人口规模和增长反映了政府的质量,那么缺乏一种良好的方法来衡量人口规模,使得对其政府的评估变得困难。格雷恩最著名的计算正是针对这个问题——特别是伦敦的人口。从死亡统计表中,格雷恩知道了出生人数。由于他对生育率有一个大致的了解,他可以推断出有多少妇女处于生育年龄。这个数据使他能够估计总家庭数,并利用他对伦敦家庭平均规模的观察,从而估算出城市的人口。他得出的结果是 384,000——之前人们认为有 200 万。格雷恩还通过表明城市的大部分增长是由于来自周边地区的移民,而不是由于繁殖速度较慢,以及尽管瘟疫恐怖,由于最严重的流行病导致的 人口减少,总是在两年内得到弥补,而引起了人们的关注。此外,格雷恩通常被认为发表了第一张“生命表”,这是一种系统排列寿命数据的方式,今天被许多组织广泛采用,从人寿保险公司到世界卫生组织,这些组织都希望了解人们能活多久。生命表显示了在 100 人组成的群体中,预期有多少人可以活到任何特定的年龄。在下面的表格中,我添加了显示今天一些国家相同数据的列(标记为“伦敦,1662”的列)。¹⁰

Graunt 的生命表扩展
1662 年,Graunt 在《自然与政治观察……关于死亡登记簿的》一书中发表了其分析。这本书受到了赞誉。一年后,Graunt 被选为皇家学会会员。然后,在 1666 年,伦敦大火烧毁了城市的大部分地区,摧毁了他的生意。更糟糕的是,他被指控在火灾开始前下令停止供水,帮助造成了这场破坏。实际上,他在火灾之后才与水公司有任何联系。尽管如此,在那次事件之后,Graunt 的名字从皇家学会的书籍中消失了。几年后,Graunt 因黄疸病去世。
主要由于 Graunt 的工作,1667 年,法国效仿英国,修订了他们的法律代码,以允许进行像死亡登记簿这样的调查。其他欧洲国家也效仿。到 19 世纪,欧洲各地的统计学家都埋头于政府记录,如人口普查数据——“数字的雪崩。”¹¹ Graunt 的遗产在于证明了通过对有限样本数据的仔细检查,可以对整个人口进行推断。尽管 Graunt 和其他人做出了英勇的努力,通过应用简单的逻辑从数据中学习,但数据的大部分秘密仍等待 19 世纪和 20 世纪初高斯、拉普拉斯等人创造的工具的发展。
术语统计学是从德语单词Statistik通过 1770 年对书籍《Bielfield 的初级通用教育》的翻译进入英语的,该书中提到:“被称为统计学的科学教给我们的是,在已知世界中所有现代国家的政治安排。”¹² 到 1828 年,该主题已经发展到 Noah Webster 的《美国词典》将统计学定义为:“关于社会状态、一个国家或国家的人民状况、他们的健康、寿命、家庭经济、艺术、财产和政治力量、他们的国家状态等事实的集合。”¹³ 该领域已经接纳了拉普拉斯的方法,他试图将他的数学分析从行星和恒星扩展到日常生活中的问题。
正态分布描述了许多现象围绕一个代表其最可能结果的中心值的变化方式;在《关于概率的哲学论文》中,拉普拉斯论证了这种新的数学可以被用来评估法律证据、预测婚姻率、计算保险费率。但在该作品的最终版本中,拉普拉斯已经六十多岁,因此发展他的想法的任务落在了年轻一些的人身上。那个人就是阿道夫·凯特莱特,他于 1796 年 2 月 22 日出生于佛兰德斯的根特。¹⁴
凯特莱特并非因为对社会运作机制有浓厚的兴趣而开始他的研究。他的论文在 1819 年使他获得了根特新大学颁发的第一个科学博士学位,论文主题是圆锥曲线理论,这是一个几何学课题。随后,他的兴趣转向了天文学,大约在 1820 年,他积极参与了在布鲁塞尔建立新天文台的运动,他在那里担任了职位。凯特莱特是一个雄心勃勃的人,显然他把天文台看作是建立科学帝国的一步。这是一个大胆的行动,因为他相对不太了解天文学,几乎不知道如何管理天文台。但他肯定很有说服力,因为不仅他的天文台得到了资金支持,他还个人获得了一笔奖学金,前往巴黎旅行数月以弥补他在知识上的不足。这证明是一个明智的投资,因为凯特莱特的比利时皇家天文台至今仍然存在。
在巴黎,凯特莱特以自己的方式受到了生活混乱的影响,这将他引向了完全不同的方向。他开始对统计学产生兴趣,是在结识了几位伟大的法国数学家,包括拉普拉斯和约瑟夫·傅里叶之后,并在傅里叶的指导下学习统计学和概率论。最终,尽管他学会了如何管理天文台,但他爱上了不同的追求,即应用天文学的数学工具来分析社会数据。
当凯特莱特回到布鲁塞尔时,他开始收集和分析人口统计数据,很快便专注于法国政府在 1827 年开始发布的犯罪活动记录。在 1835 年出版的两卷本著作《论人类及其能力的发展》中,凯特莱特印制了从 1826 年到 1831 年在法国报告的年度谋杀案表格。他指出,谋杀案的数量相对稳定,每年使用枪支、剑、刀、手杖、石头、切割和刺伤工具、踢打、勒索、溺水和火灾等手段实施的谋杀比例也是如此。¹⁵ 凯特莱特还根据年龄、地理、季节和职业,以及医院和监狱分析了死亡率。他研究了酗酒、疯狂和犯罪方面的统计数据。他还发现了描述巴黎吊死自杀和比利时六十多岁女性与二十多岁男性结婚数量的统计规律。
统计学家之前已经进行过此类研究,但凯特莱特对数据的处理更为深入:他不仅超越了检查平均值,还仔细审查了数据偏离平均值的方式。无论他看哪里,凯特莱特都发现了正态分布:在犯罪倾向、婚姻和自杀倾向中,以及美洲印第安人的身高和苏格兰士兵的胸围测量(他在《爱丁堡医学与外科杂志》的旧刊中发现了一份 5,738 份胸围测量的样本)。在 100,000 名被征召入伍的年轻法国人的身高中,他也发现了正态分布的偏差。在这组数据中,当将征兵人数与他们的身高相对应时,钟形曲线发生了扭曲:五英尺二英寸以上的应征者人数太少,而在那个高度以下的人数则有所补偿。凯特莱特认为,这种差异——大约有 2,200 名“矮个子”——是由于欺诈,或者说是一种友好的篡改,因为那些身高低于五英尺二英寸的人被免除了服役。
数十年后,伟大的法国数学家朱尔-亨利·庞加莱运用奎特莱特的方法捕捉到一个欺骗顾客的面包师傅。起初,庞加莱,他习惯于每天买一块面包,注意到称量他的面包后,平均重量约为 950 克,而不是广告中的 1000 克。他向当局投诉,之后收到了更大的面包。尽管如此,他还是有一种直觉,他的面包有些地方不对劲。因此,只有著名学者——至少是终身教授——才能拥有的耐心,他仔细地每天称量他的面包整整一年。尽管他的面包现在平均重量更接近 1000 克,但如果面包师傅诚实地给他随机面包,那么比平均值重或轻的面包数量应该会——如我在第七章中提到的——随着误差定律的钟形模式而减少。相反,庞加莱发现轻面包太少,重面包太多。他得出结论,面包师傅并没有停止制作重量不足的面包,而是试图通过总是给他手头最大的面包来安抚他。警察再次访问了这个作弊的面包师傅,据报道他感到非常惊讶,并可能同意改变他的行为。¹⁶
奎特莱特偶然发现了一个有用的发现:随机模式的可靠性如此之高,以至于在某些社会数据中,其违反情况可以被视为不当行为的证据。如今,此类分析被应用于大量在奎特莱特时代无法分析的数据。事实上,近年来,这种统计侦探工作变得流行,创造了一个新的领域,称为法医经济学,其中最著名的例子可能是对统计研究提出公司曾回溯其股票期权授予日期的指控。这个想法很简单:公司授予股票期权——即在授予日期以股票价格购买股票的权利——作为激励高管提高公司股价的手段。如果授予日期回溯到股价特别低的时候,高管的利润将相应地很高。这是一个巧妙的主意,但当秘密进行时,它违反了证券法。这也留下了一个统计指纹,导致大约十多家主要公司对此类行为的调查。¹⁷ 在一个不太公开的例子中,沃顿商学院的经济学家贾斯汀·沃尔弗斯发现了大约 70,000 场大学篮球比赛结果中的欺诈证据。¹⁸
狼弗通过比较拉斯维加斯博彩公司的赔点差与比赛的实际情况来发现了这一异常。当一个队伍被看好时,博彩公司会提供赔点差以吸引对双方竞争者大致相等的投注。例如,假设加州理工学院的篮球队被认为比加州大学洛杉矶分校的篮球队(对于大学篮球迷来说,是的,这在 20 世纪 50 年代确实是事实)要好。而不是分配不平衡的赔率,博彩公司可以提供一场公平的投注,但只有在加州理工学院以 13 分或更多优势击败加州大学洛杉矶分校时才支付赔率。
尽管这样的赔点差是由博彩公司设定的,但它们实际上是由大量赌徒固定的,因为博彩公司会调整它们以平衡需求。(博彩公司通过费用赚钱,并寻求在每一方投注的金额相等,这样他们就不会输,无论结果如何。)为了衡量赌徒评估两支队伍的好坏,经济学家使用一个称为预测误差的数字,这是看好队伍的胜利差与市场决定的赔点差之间的差异。预测误差作为一种误差,其分布符合正态分布。狼弗发现,其平均值是 0,这意味着赔点差不太可能高估或低估队伍,其标准差是 10.9 分,这意味着大约三分之二的时间,赔点差在胜利差 10.9 分之内。(在专业足球比赛的研究中,也发现了类似的结果,平均值为 0,标准差为 13.9 分。)¹⁹
当狼弗检查涉及重头热爱的游戏子集时,他发现了一些令人惊讶的事情:在重头热门队伍以略多于赔点差获胜的游戏中游戏太少,而在热门队伍仅略低于赔点差获胜的游戏中却出现了不可解释的过剩。这又是凯特莱特的异常。狼弗的结论,就像凯特莱特和庞加莱的结论一样,是欺诈。他的分析是这样的:即使是顶尖选手也很难确保他的队伍能击败赔点差,但如果队伍是重头热门,选手可以在不危及他队伍胜利机会的情况下放松一些,以确保队伍不会击败赔点差。因此,如果无良赌徒想在不需要让球员冒失去比赛风险的情况下操纵比赛,结果就会是狼弗发现的扭曲。狼弗的工作是否证明了在部分大学篮球比赛中,球员为了削减分数而接受贿赂?不,但正如狼弗所说,“你不应该在球场上发生的事情反映出在拉斯维加斯发生的事情。”值得注意的是,在最近的国家大学体育协会的一项民意调查中,1.5%的球员承认知道一个队友“为了表现不佳而收钱。”²⁰
奎特莱特并没有追求他想法在法医学上的应用。他有着更大的计划:利用正态分布来阐明人类和社会的本质。他写道,如果你制作了 1000 个雕像的复制品,这些复制品会因为测量和工艺误差而有所不同,而这种变化将遵循误差定律。如果人们的生理特征的变化遵循相同的定律,他推理道,那一定是因为我们也是原型的不完美复制品。奎特莱特称这个原型为“l’homme moyen”,即普通人。他认为人类行为的模板也存在。大型百货商店的经理可能不知道那个空想的新收银员是否会将那半盎司香奈儿魅力香水偷走,但他可以预测,在零售业中,库存损失每年都会相当稳定地保持在约 1.6%,并且其中大约 45%到 48%是由于员工盗窃。²¹ 奎特莱特写道,犯罪“就像一个以令人恐惧的规律性支付的预算。” ²²
奎特莱特认识到,“l’homme moyen”会因不同文化而异,并且它可能会随着社会条件的变化而变化。事实上,研究这些变化及其原因正是奎特莱特最大的抱负。“人出生、成长和死亡都遵循某些定律,”他写道,而这些定律“从未被研究过。” ²³ 牛顿通过认识和制定一套普遍定律而成为现代物理学的奠基人。以牛顿为榜样,奎特莱特渴望创造一种新的“社会物理学”,描述人类行为的定律。在奎特莱特的类比中,正如一个物体,如果不受干扰,将继续其运动状态,那么如果社会条件保持不变,人们的大众行为也将保持不变。正如牛顿描述了物理力如何使物体偏离其直线轨迹,奎特莱特寻求描述社会力量如何改变社会特征的定律。例如,奎特莱特认为巨大的财富不平等和价格的巨大波动是犯罪和社会动荡的原因,并且稳定的犯罪率代表了一种平衡状态,这种状态会随着潜在原因的变化而变化。2001 年 9 月 11 日袭击后的几个月里,社会平衡发生了显著变化,当时害怕乘坐飞机的旅客突然转向汽车,他们的恐惧导致该时期比前一年同期多出大约 1000 起公路交通事故——这是 9 月 11 日袭击的隐性伤亡。²⁴
但相信存在社会物理学是一回事,而定义它则是另一回事。凯特莱特意识到,在真正的科学中,可以通过将人们置于大量的实验情境中并测量他们的行为来探索理论。由于这是不可能的,他得出结论,社会科学更像是天文学而不是物理学,其洞察力是通过被动观察得出的。因此,为了揭示社会物理学的规律,他研究了“普通人”的时间和文化的变化。
凯特莱特的思想得到了广泛的欢迎,尤其是在法国和英国。有一位生理学家甚至收集了来自一个被许多国籍的人频繁使用的火车站厕所的尿液,以确定“平均欧洲人尿液”的特性。²⁵ 在英国,凯特莱特最热情的追随者是一位富有的棋手和历史学家亨利·托马斯·巴克勒,他最著名的作品是一部名为《英格兰文明史》的雄心勃勃的多卷本著作。不幸的是,1861 年,当他 40 岁时,巴克勒在叙利亚旅行时感染了斑疹伤寒。当地医生提供医疗服务,但他拒绝了,因为那个人是法国人,因此他去世了。巴克勒没有完成他的论文。但他完成了最初的两卷,第一卷从统计学的角度展示了历史。它基于凯特莱特的工作,并立即获得了成功。这本书在欧洲广为流传,被翻译成法语、德语和俄语。达尔文读过它;阿尔弗雷德·拉塞尔·华莱士读过它;陀思妥耶夫斯基读过两次。²⁶
尽管这本书很受欢迎,但历史评判认为,凯特莱特的数学比他的社会物理学更有道理。一方面,社会中的许多事情,尤其是在金融领域,并不受正态分布的支配。例如,如果电影收入是正态分布的,那么大多数电影将赚取接近某个平均金额,而三分之二的全部电影收入将落在这个数字的标准差范围内。但在电影行业,20%的电影贡献了 80%的收入。这种以热门电影驱动的业务,尽管完全不可预测,但遵循着完全不同的分布,对于这种分布,均值和标准差的概念没有意义,因为没有“典型”的表现,而那些在普通业务中可能每几百年才发生一次的巨片异常,却每隔几年就会发生。²⁷
尽管奎特莱特忽视其他概率分布的问题更为重要,但他未能取得很大进展来揭示他寻求的定律和力量。因此,最终他对社会科学的直接影响是有限的,然而他的遗产却是不可否认且影响深远的。它并不在于社会科学,而在于“硬”科学,在那里,他理解大量随机事件秩序的方法启发了许多学者,并催生了革命性的工作,这些工作改变了生物学和物理学思考的方式。
是查尔斯·达尔文的第一个表亲将统计思维引入生物学。弗朗西斯·高尔顿是一个有闲阶级的人,他在 1840 年进入了剑桥大学的圣三一学院。²⁸ 他最初学习医学,但后来遵循达尔文的建议,将他的领域改为数学。当他 22 岁时,他的父亲去世,他继承了一大笔钱。由于无需为生计而工作,他成为了一名业余科学家。他的痴迷是测量。他测量了人们头的大小、鼻子的长度和四肢的长度,人们在听讲座时摆弄身体次数,以及他经过的街上女孩的吸引力程度(伦敦女孩得分最高;阿伯丁最低)。他还测量了人们指纹的特征,这一努力导致了 1901 年苏格兰场采用指纹识别。他甚至测量了君主和牧师的寿命,这与其他职业人们的寿命相似,这使他得出结论,祈祷没有带来任何好处。
在他的 1869 年著作《遗传天才》中,高尔顿写道,在任何给定身高范围内的总人口比例在时间上必须几乎是均匀的,并且正态分布支配着身高以及每一个其他身体特征:头围、大脑大小、灰质重量、脑纤维数量等等。但高尔顿并没有止步于此。他相信人类的性格也由遗传决定,并且像人们的身体特征一样,以某种方式遵循正态分布。因此,根据高尔顿的说法,每 1000 万人中大约有 250 人继承了一些领域的非凡能力,因此成为他们领域的杰出人物。(在他那个时代,女性通常不工作,他没有对她们进行类似的分析。)高尔顿基于这些想法创立了一个新的研究领域,称之为优生学,这个词来自希腊语中的eu(好)和genos(出生)。多年来,优生学对许多人来说意味着许多不同的事情。这个术语以及他的一些想法被纳粹采纳,但没有证据表明高尔顿会赞同德国人的杀戮计划。他的希望,而不是别的,是通过选择性繁殖来改善人类状况。
第九章的大部分内容致力于理解高尔顿对成功简单因果解释之所以如此诱人的原因。但在第十章中,我们将看到,由于完成任何复杂任务都必须克服的无数可预见和偶然的障碍,能力与成就之间的联系远不如高尔顿观点所能解释的那么直接。事实上,近年来心理学家发现,面对障碍坚持不懈的能力至少与天赋一样是成功的重要因素。³⁰这就是为什么专家们经常提到“十年规则”,意味着在大多数事业中取得高度成功至少需要十年时间的辛勤工作、实践和努力。想到努力和机遇,就像天赋一样,是衡量成功的关键,可能会让人感到畏惧。但我发现这很鼓舞人心,因为虽然我们的基因构成是我们无法控制的,但我们的努力程度取决于我们自己。而且,机遇的影响也可以通过我们承诺重复尝试来控制,从而增加我们成功的几率。
无论优生学的利弊如何,高尔顿对遗传的研究使他发现了两个对现代统计学至关重要的数学概念。其中一个是在 1875 年,在他向七个朋友分发甜豌豆荚包之后出现的。每个朋友都收到了大小和重量均匀的种子,并将连续几代的种子归还给高尔顿。在测量它们时,高尔顿注意到大种子后代的平均直径小于父母,而小种子后代的平均直径大于父母。后来,他利用他在伦敦设立的一个实验室获得的数据,注意到人类父母和孩子的身高也出现了同样的效应。他将这种现象——在相关测量中,如果一个测量值远离其平均值,另一个将更接近其平均值——称为向平均值回归。
高尔顿很快意识到,那些没有表现出向平均值回归的过程最终会失去控制。例如,假设高个子父亲的儿子们平均身高会与他们的父亲一样高。由于身高有差异,一些儿子会比他们的父亲更高。现在想象下一代,假设更高个子儿子的儿子们,也就是最初那些人的孙子们,平均身高也会和他们的父亲一样高。其中一些人,也必须比他们的父亲更高。这样,随着一代又一代的更替,最高的人类会变得越来越高。但由于向平均值回归,这种情况并不会发生。同样的情况也适用于天生的智力、艺术天赋或击打高尔夫球的能力。因此,非常高的父母不应该期望他们的孩子也会很高,非常聪明的父母不应该期望他们的孩子也会很聪明,而这个世界的毕加索和老虎伍兹这样的人也不应该期望他们的孩子能匹配他们的成就。另一方面,非常矮的父母可以期待他们的后代会更高,而我们这些不聪明或不会画画的人也有合理的希望,我们的不足会在下一代中得到改善。
在他的实验室里,高尔顿通过广告吸引受试者,然后对他们进行了一系列身高、体重,甚至某些骨骼尺寸的测量。他的目标是找到一种基于父母尺寸预测孩子尺寸的方法。高尔顿的一个图表显示了父母身高与子女身高之间的关系。如果,比如说,这些身高始终相等,图表将是一条 45 度上升的整洁直线。如果这种关系平均而言是成立的,但个别数据点有所变化,那么数据将显示出这条线之上和之下的某些散点。因此,高尔顿的图表不仅直观地展示了父母身高与子女身高之间的一般关系,还展示了这种关系的稳定性程度。这是高尔顿对统计学做出的另一项重大贡献:定义了一个描述这种关系一致性的数学指标。他称之为相关系数。
相关系数是一个介于-1 和 1 之间的数字;如果它接近±1,则表示两个变量之间存在线性关系;系数为 0 表示没有关系。例如,如果数据显示,每周吃一次最新的麦当劳 1000 卡路里套餐,人们每年会增重 10 磅,而每周吃两次则会增重 20 磅,依此类推,相关系数将为 1。如果由于某种原因,每个人都相应地减少这些体重,相关系数将为-1。如果体重增加和减少都是随机的,并且不依赖于餐食消费,则系数将为 0。如今,相关系数是统计学中最广泛使用的概念之一。它们被用来评估诸如吸烟数量与癌症发病率、恒星与地球的距离以及它们远离我们地球的速度、学生在标准化考试中的分数以及学生家庭收入之间的关系。
高尔顿的工作不仅因其直接的重要性而显著,还因为它激发了随后几十年中大量统计工作的灵感,在这期间,统计学领域迅速发展并趋于成熟。其中最重要的进步之一是由高尔顿的弟子卡尔·皮尔逊所取得的。在本章早期,我提到了许多按照正态分布分布的数据类型。但是,对于有限的数据集,拟合永远不会完美。在统计学早期,科学家们有时仅仅通过绘图并观察所得曲线的形状来确定数据是否呈正态分布。但是,如何量化拟合的准确性呢?皮尔逊发明了一种方法,称为卡方检验,通过这种方法,你可以确定一组数据是否实际上符合你所认为的分布。他在 1892 年 7 月的蒙特卡洛演示了他的测试,这是一种对 Jagger 工作的严格重复。³¹ 在皮尔逊的测试中,就像在 Jagger 的测试中一样,轮盘赌上出现的数字并不遵循如果轮盘产生随机结果它们应该遵循的分布。在另一个测试中,皮尔逊检查了在抛掷 12 个骰子的 26,306 次中出现了多少个 5 和 6。他发现,这种分布并不是你在公平骰子的随机实验中会看到的——也就是说,在一个单次投掷中 5 或 6 出现的概率是 1/3,或 0.3333。但如果 5 或 6 出现的概率是 0.3377——也就是说,如果骰子是偏斜的,那么它是一致的。在轮盘赌的情况下,游戏可能被操纵了,但骰子可能因为制造中的差异而存在偏差,我的朋友 Moshe 强调这些偏差总是存在的。
卡方检验今天被广泛使用。例如,假设你不想测试骰子,而是想测试三个谷物箱的消费者吸引力。如果消费者没有偏好,你预计大约有三分之一的被调查者会为每个箱子投票。正如我们所见,实际结果很少会如此均匀分布。通过使用卡方检验,你可以确定获胜的箱子是否因为消费者的偏好而不是偶然获得了更多的选票。同样,假设一家制药公司的研究人员在预防急性移植排斥的两种治疗方法上进行实验。他们可以使用卡方检验来确定结果之间是否存在统计学上的显著差异。或者假设在开设新店面之前,一家租车公司的首席财务官预计公司 25%的客户将要求购买微型车,50%的客户将想要紧凑型车,12.5%的客户将要求中型车和“其他”类别的车。当数据开始到来时,卡方检验可以帮助首席财务官迅速决定他的假设是否正确,或者新地点是否典型,公司是否应该改变组合。
通过高尔顿,凯特莱的工作为生物科学注入了活力。但凯特莱还帮助推动了物理学领域的革命:统计物理学的两位创始人詹姆斯·克拉克·麦克斯韦和路德维希·玻尔兹曼都从凯特莱的理论中获得了灵感。(就像达尔文和陀思妥耶夫斯基一样,他们在巴克利的书中读到它们。)毕竟,如果 5,738 名苏格兰士兵的胸围在正态分布曲线上分布得很好,以及 2 亿名司机的平均年里程每年只变化 100 英里,那么不需要爱因斯坦就能猜测到一升气体中的大约 10 的 20 次方分子可能表现出一些有趣的规律性。但实际上,确实需要爱因斯坦最终说服科学界需要那种新的物理学方法。阿尔伯特·爱因斯坦在 1905 年做到了,那一年他发表了关于相对论的第一篇论文。尽管在流行文化中几乎无人知晓,但爱因斯坦 1905 年关于统计物理学的论文同样具有革命性。事实上,在科学文献中,它将成为他最被引用的作品。³²
爱因斯坦 1905 年在统计物理学方面的工作旨在解释一种称为布朗运动的现象。这个过程是以植物学家、显微镜学世界专家、被誉为首次清晰描述细胞核的人罗伯特·布朗的名字命名的。布朗一生的目标,以不懈的能量追求,是通过他的观察发现生命力的来源,一种在他那个时代被认为赋予某物生命属性神秘影响。在这个追求中,布朗注定要失败,但有一天在 1827 年 6 月,他以为自己成功了。
通过他的镜头观察,布朗注意到他正在观察的花粉颗粒内部的颗粒似乎在移动。³³ 尽管花粉是生命的源泉,但它本身并不是一个有生命的生物。然而,只要布朗继续观察,这种运动就从未停止过,就好像颗粒拥有某种神秘的能量。这不是有意的运动;实际上,它似乎是完全随机的。带着极大的兴奋,布朗最初得出结论,他捕捉到了他的猎物,因为这种能量如果不是生命本身的能量,那会是什么?
在接下来的一个月里,布朗进行了一系列勤奋的实验,他观察到当将各种有机颗粒(如小牛肉的分解纤维、被伦敦灰尘“染黑”的蜘蛛网,甚至他自己的粘液)悬挂在水中,有时甚至在杜松子酒中,都会出现同样的运动。然后,在对他发现的乐观解释的致命打击中,布朗还观察到无机颗粒(如石棉、铜、铋、锑和锰)的运动。他知道他观察到的运动与生命的问题无关。布朗运动的真实原因将被证明是推动凯特莱特所注意到的行为规律性的同一力量——不是物理力量,而是来自随机模式的一种表面上的力量。不幸的是,布朗没有活到看到他对观察到的现象的解释。
在布朗工作之后的几十年里,玻尔兹曼、麦克斯韦和其他人奠定了对布朗运动理解的基础。受到凯特莱特的启发,他们创立了新的领域——统计物理学,运用概率和统计的数学体系来解释流体的性质是如何从构成它们的(当时假设的)原子运动中产生的。然而,他们的想法在接下来的几十年里并没有流行起来。一些科学家对理论有数学上的问题。其他人反对,因为当时没有人见过原子,也没有人相信有人会见到。但大多数物理学家是务实的,因此接受的最重要障碍是,尽管理论复制了一些已知定律,但它几乎没有做出新的预测。因此,事情一直如此,直到 1905 年,在麦克斯韦去世很久之后,在沮丧的玻尔兹曼自杀之前不久,爱因斯坦利用这个新兴的理论,以极大的数值细节解释了布朗运动的精确机制。³⁴ 统计方法在物理学中的必要性将再次不再有疑问,物质由原子和分子组成的观点将被证明是大多数现代技术的基础,也是物理学史上最重要的思想之一。
流体中分子的随机运动,正如我们在第十章中将会提到的,可以被视为我们人生道路的隐喻,因此花点时间仔细审视爱因斯坦的工作是值得的。根据原子模型,水分子的基本运动是混沌的。分子先这样飞,然后那样飞,只有在遇到其中一个姐妹分子时才会直线运动。正如序言中提到的,这种路径——在各个点方向随机改变——通常被称为醉汉的漫步,对任何曾经喝过几杯马丁尼的人来说原因显而易见(更为清醒的数学家和科学家有时称之为随机漫步)。如果漂浮在液体中的粒子,如原子理论所预测的,不断地随机受到液体分子的撞击,人们可能会预期它们会因为碰撞而这样或那样地晃动。但关于布朗运动的这种图景有两个问题:首先,分子太轻,无法推动可见的漂浮粒子;其次,分子碰撞的频率远高于观察到的晃动。爱因斯坦的才华之一在于意识到这两个问题相互抵消:尽管碰撞非常频繁,但由于分子非常轻,这些频繁的孤立碰撞没有明显的效果。只有当纯粹的运气偶尔导致来自某个特定方向的撞击明显偏多——这是分子对罗杰·马里斯在棒球中创纪录年份的类比——才会出现明显的晃动。当爱因斯坦进行数学计算时,他发现尽管在微观层面上存在混沌,但分子的大小、数量和速度等因素与可观察到的晃动频率和幅度之间存在可预测的关系。爱因斯坦首次将新的可测量后果与统计物理学联系起来。这听起来可能像是一项技术上的成就,但相反,它代表了伟大原则的胜利:我们感知到的大多数自然秩序都隐藏着看不见的潜在无序,因此只能通过随机性的规则来理解。正如爱因斯坦所写,“认识到看似完全不同现象的统一性是一种美妙的感觉。” ³⁵
在爱因斯坦的数学分析中,正态分布再次扮演了核心角色,在科学史上达到了一个新的辉煌位置。醉汉的漫步也确立为自然界中最基本——很快也成为研究最多的——过程之一。随着所有领域的科学家开始接受统计方法作为合法的方法,他们认识到醉汉的漫步的指纹几乎存在于所有研究领域——在清除的非洲丛林中蚊子的觅食,尼龙的化学性质,塑料的形成,自由量子粒子的运动,股价的变动,甚至在数亿年时间的智能进化中。我们将在第十章中考察随机性对我们人生道路的影响。但正如我们即将看到的,尽管在随机变化中有有序的模式,但模式并不总是有意义的。当存在意义时,认识到意义固然重要,但同样重要的是,当不存在意义时不要强行提取意义。避免在随机模式中产生意义的错觉是一项艰巨的任务。这是下一章的主题。
第九章
模式和幻觉的幻觉
**在 1848 年,两位少女,玛格丽特和凯特·福克斯,听到了无法解释的噪音,比如敲击声或家具移动的声音。碰巧的是,她们的房子以闹鬼而闻名。据传说,¹ 凯特挑战噪音的来源重复她的手指弹响声,并敲击出她的年龄。它接受了这两个挑战。在接下来的几天里,在她们的母亲和一些邻居的帮助下,姐妹俩制定了一个代码,通过这个代码她们可以与敲击者(无意中开玩笑)进行交流。她们得出结论,敲击声来自一个多年前在他们现在居住的房屋中被谋杀的商贩的灵魂。就这样,现代灵性主义——相信死者可以与生者交流——诞生了。到 19 世纪 50 年代初,一种特定的灵性接触方式,称为桌摇,及其表亲桌移动和桌转,在美国和欧洲变得流行起来。这项活动包括一群人围坐在桌子周围,把手放在桌子上,等待。在桌摇中,经过一段时间后,会听到敲击声。在桌移动和桌转中,经过一段时间后,桌子会开始倾斜或移动,有时甚至把坐着的人也拖动起来。人们可以想象到严肃的留胡须的男子,穿着到膝盖的夹克,以及穿着裙子的热情女性,眼睛充满惊奇,他们的手随着桌子这样或那样地移动。
桌子移动变得如此流行,以至于在 1853 年夏天,科学家们开始研究它。一组医生注意到,在无声静坐期间,似乎形成了一种关于桌子将朝哪个方向移动的无意识共识。² 他们发现,当他们的注意力被分散,以至于不能形成共同期望时,桌子就不会移动。在另一个试验中,他们设法创造了一种条件,其中一半的坐者预期桌子会向左移动,另一半预期桌子会向右移动,但桌子仍然没有移动。他们得出结论,这种“运动是由于肌肉动作,主要是无意识进行的。”但最终的调查是由物理学家迈克尔·法拉第进行的,他是电磁理论的创始人之一,电动机的发明者,也是历史上最伟大的实验科学家之一。³ 法拉第首先发现,即使只有一位坐者坐在桌子旁,这种现象也会发生。然后,他招募了那些“非常值得尊敬”且擅长桌子移动的坐者,进行了一系列巧妙而复杂的实验,证明坐者的手的移动先于桌子的移动。此外,他设计了一种指示器,在实时提醒坐者这种移动何时发生。他发现,“一旦将……[指示器]放在最认真的[坐者]面前……[错觉]的力量就消失了;这仅仅是因为参与者意识到了他们真正在做什么。”⁴
法拉第得出结论,正如医生们所做的那样,坐者无意识地拉动和推动桌子。这种运动可能最初是从随意的烦躁不安开始的。然后在某个时刻,坐者从这种随机性中感知到了一种模式。这种模式导致了一种自我实现的预期,因为坐者的手跟随桌子的想象中的领导。法拉第写道,他的指示器的价值在于“它对桌子转盘者心智的纠正能力。”⁵ 法拉第认识到,人类的感知并不是现实的直接后果,而是一种想象的行为。⁶
感知需要想象力,因为人们在生活中遇到的数据从不完整且总是模棱两可。例如,大多数人认为,一个人能够获得的最重要的证据是亲眼目睹事件,而在法庭上,目击证词比其他任何证据都受到更高的尊重。然而,如果你要求向法庭展示与人类眼睛视网膜上捕获的未经处理的数据相同质量的视频,法官可能会质疑你试图传达什么。首先,视图将有一个盲点,即视神经连接到视网膜的地方。此外,我们视野中具有良好分辨率的唯一部分是视网膜中心周围大约 1 度视角的狭窄区域,这个区域相当于我们伸直手臂时大拇指的宽度。在这个区域之外,分辨率急剧下降。为了补偿这一点,我们不断移动我们的眼睛,将更清晰的区域对准我们希望观察的场景的不同部分。因此,发送到大脑的原始数据模式是一个摇摇晃晃、严重像素化的图像,其中有一个洞。幸运的是,大脑处理这些数据,结合双眼的输入,根据相邻位置的视觉属性相似性来填补空白,并进行插值。⁷ 结果——至少直到年龄、伤害、疾病或过多的迈泰酒(一种鸡尾酒)开始对其造成影响——是一个快乐的人,他或她深受一种令人信服的幻觉的影响,即他的或她的视力是锐利和清晰的。
我们还利用想象力和捷径来填补非视觉数据模式中的空白。与视觉输入一样,我们根据不确定和不完整的信息得出结论和做出判断,并在分析完模式后得出结论,认为我们的“图像”是清晰和准确的。但是,它真的是这样吗?
科学家们通过开发统计分析方法来决定一组观察结果是否为假设提供了良好的支持,或者相反,这种明显的支持可能是由于偶然性造成的,从而采取措施保护自己免于识别错误模式。例如,当物理学家试图确定超导器的数据是否具有显著性时,他们不会仅仅通过观察图表,寻找高于噪声的峰值;他们应用数学技术。其中一种技术,即显著性检验,是在 20 世纪 20 年代由 20 世纪最伟大的统计学家之一 R.A.费希尔(R.A. Fisher)开发的(这位先生也因他无法控制的脾气以及与他的同僚统计学家先驱卡尔·皮尔逊(Karl Pearson)之间的激烈争执而闻名,这场争执如此激烈,以至于皮尔逊在 1936 年去世后,他仍然继续攻击他的对手)。
为了说明费舍尔的思想,假设一个在研究超感官知觉的研究生预测了一些抛硬币的结果。如果我们观察到她几乎总是正确,我们可能会假设她在这方面有某种技能,例如,通过心灵感应。另一方面,如果她一半的时间是正确的,数据支持她只是猜测的假设。但是,如果数据介于两者之间,或者数据不多,怎么办?我们在接受和拒绝竞争假设之间划线的标准是什么?这正是显著性检验所做的事情:它是一种正式的程序,用于计算在假设我们正在测试的假设为真的情况下,我们观察到我们所观察到的概率。如果概率低,我们拒绝假设。如果概率高,我们接受它。
例如,假设我们是怀疑论者,并假设学生无法准确预测抛硬币的结果。并且假设在实验试验中,她在一定数量的情况下正确预测了抛硬币的结果。那么我们在第四章中分析的方法使我们能够计算出她仅凭偶然就能完成预测的概率。如果她正确猜测硬币抛掷结果如此频繁,以至于,比如说,她仅凭偶然成功的概率仅为 3%,那么我们就应该拒绝她是在猜测的假设。在显著性检验的术语中,我们会说我们拒绝假设的显著性水平是 3%,这意味着数据偶然误导我们的可能性最多只有 3%。3%的显著性水平相当令人印象深刻,因此媒体可能会将这一壮举报道为心灵感应存在的新证据。然而,那些不相信心灵感应的人可能仍然持怀疑态度。
这个例子说明了一个重要的观点:即使数据在 3%的显著性水平上是显著的,如果你测试 100 个非心灵感应者以测试他们的心灵感应能力——或者 100 个无效药物以测试其有效性——你应该预期会有少数人表现出心灵感应能力,或者少数无效药物表现出有效性。这就是为什么政治民意调查或医学研究,尤其是小规模的研究,有时会与早期的民意调查或研究相矛盾。然而,显著性检验和其他统计方法为科学家们提供了良好的服务,尤其是在他们可以进行大规模的对照研究时。但在日常生活中,我们并不进行这样的研究,我们也没有直觉地应用统计分析。相反,我们依赖直觉。当我的维京炉灶变成了一堆废铁,并且偶然间一个熟人告诉我她也有过同样的经历时,我开始告诉我的朋友们避免这个品牌。当我在最近乘坐的其他几家航空公司的航班上遇到的乘务员似乎比那些航空公司的乘务员更无精打采时,我开始避免乘坐联合航空的航班。那里的数据不多,但我的直觉识别出了模式。
有时这些模式是有意义的,有时则不然。在两种情况下,我们对于生命模式的认识既非常令人信服又非常主观,这具有深远的影响。它暗示了一种相对性,正如法拉第发现的那样,现实存在于观察者的眼中。例如,2006 年,《新英格兰医学杂志》发表了一项对患有记录在案的膝关节骨关节炎患者进行的 1250 万美元的研究。该研究显示,营养补充剂葡萄糖胺和软骨素组合在缓解关节炎疼痛方面并不比安慰剂更有效。然而,一位杰出的医生很难放弃他对补充剂有效的感觉,并在全国广播节目中结束了对该研究的分析,重申了治疗可能的益处,并评论说:“我妻子的医生养了一只猫,她说这只猫如果没有一点葡萄糖胺和硫酸软骨素就无法在早上起床。”⁸
当我们仔细观察时,我们发现现代社会中的许多假设,就像桌子移动一样,都是基于共享的错觉。而第八章关注的是随机事件所展现的令人惊讶的规律性,在接下来的内容中,我将从相反的方向来探讨这个问题,并检查那些看似有明确原因的事件实际上可能是偶然性的产物。

寻找模式并赋予它们意义是人类的天性。卡尼曼和特沃斯基分析了我们在评估数据中的模式以及在不确定性面前做出判断时使用的许多捷径。他们将那些捷径称为启发式方法。一般来说,启发式方法是有效的,但正如我们处理视觉信息的方式有时会导致视觉错觉一样,启发式方法有时会导致系统性的错误。卡尼曼和特沃斯基将这些错误称为偏差。我们所有人都在使用启发式方法,我们所有人都在遭受偏差的困扰。但是,尽管视觉错觉在我们的日常生活中很少具有相关性,认知偏差在人类决策中起着重要的作用。因此,在 20 世纪末,一场研究人类心灵如何感知随机性的运动应运而生。研究人员得出结论:“人们对随机性的认识非常差;当他们看到它时,他们不认识它,当他们尝试时,他们无法产生它,”⁹而且更糟糕的是,我们通常错误地判断了机会在我们生活中的作用,并做出了明显不符合我们自身最佳利益的决策。¹⁰
想象一系列事件。这些事件可能是季度收益或者通过互联网约会服务设定的连续的好或坏日期。在每种情况下,序列越长,或者你查看的序列越多,你发现所有可想象模式的概率就越大——这完全是偶然的。因此,一连串的好或坏季度,或者日期,根本不需要有任何“原因”。数学家乔治·斯宾塞-布朗(George Spencer-Brown)以非常鲜明的方式说明了这一点,他写道,在一个由 10^(1,000,007)个零和一组成的随机序列中,你应该至少期望有 10 个不重叠的连续一百万个零的子序列。¹¹ 想象一下,当一个人试图用这些随机数进行某种科学目的时,无意中遇到了这样的字符串。他的软件生成了 5 个连续的零,然后是 10 个,然后是 20 个,1,000 个,10,000 个,100,000 个,500,000 个。他是否应该退回程序并要求退款?当一位科学家打开一本新购买的随机数字书,却发现所有的数字都是零时,他会如何反应?斯宾塞-布朗的观点是,一个过程是随机的和该过程的产物看起来是随机的之间存在差异。苹果公司在其 iPod 音乐播放器最初采用的随机洗牌方法上遇到了这个问题:真正的随机性有时会产生重复,但当用户听到连续播放同一首歌或同一艺术家的歌曲时,他们认为洗牌不是随机的。因此,苹果公司的创始人史蒂夫·乔布斯(Steve Jobs)说,公司使这个功能“不那么随机,以使其感觉更随机”。¹²
关于随机模式感知的最早推测之一来自哲学家汉斯·赖因哈特,他在 1934 年表示,未经概率训练的人很难识别随机事件序列。¹³ 考虑以下打印结果,它代表了一系列 200 次抛硬币的结果,其中 X 代表反面,O 代表正面:ooooxxxxoooxxxooooxxooxoooxxxooxxoooxxxxoooxooxoxoooooxooxoooooxxooxxxoxxoxoxxxxoooxxooxxoxooxxxooxooxoxoxxoxoooxoxooooxxxxoooxxooxoxxoooxoooxxoxooxxooooxooxxxxooooxxxoooxoooxxxxxxooxxxooxooxoooooxxxx. 在数据中找到模式很容易——例如,开头连续四个 O 后面跟着四个 X,以及结尾处连续六个 X。根据随机性的数学原理,在 200 次随机抛掷中,这样的连续出现是可以预料的。然而,它们却让大多数人感到惊讶。因此,当用 X 和 O 的字符串来代表影响我们生活的事件时,人们会寻求对这种模式的合理解释。当一串 X 代表股市的下跌日时,人们相信那些解释市场波动的专家。当一串 O 代表你最喜欢的体育明星的一系列成就时,解说员在喋喋不休地谈论球员的“连续性”时听起来很有说服力。而当,正如我们之前看到的,X 或 O 代表派拉蒙和哥伦比亚电影公司制作的连续失败电影时,当行业杂志宣称谁真正掌握了全球电影观众的脉搏时,每个人都点头表示同意。
学术界和作家们投入了大量精力研究金融市场随机成功模式。例如,有大量证据表明,股票的表现是随机的——或者说是如此接近随机,以至于在没有内部信息的情况下,以及在交易或管理投资组合的成本存在的情况下,你无法从任何偏离随机性的行为中获利。¹⁴ 然而,华尔街有着悠久的分析师大师传统,1990 年代末,分析师的平均年薪约为 300 万美元。¹⁵ 这些分析师是如何做到的?根据 1995 年的一项研究,由《巴伦周刊》邀请的八到十二位最高薪的“华尔街超级明星”在年度圆桌会议上做出的市场预测仅仅与平均市场回报率相当。¹⁶ 1987 年和 1997 年的研究发现,电视节目《华尔街周报》中预言家推荐的股票表现不佳,远远落后于市场。¹⁷ 在对 153 份通讯的研究中,哈佛经济研究所的研究员发现“没有显著的股票选择能力证据。”¹⁸
仅凭运气,一些分析师和共同基金总会展现出令人印象深刻的成功模式。尽管许多研究表明,这些过去的股市成功并不能很好地预示未来的成功——也就是说,这些成功很大程度上只是运气——但大多数人仍然觉得他们的股票经纪人或共同基金管理者的专业知识是值得付费的。因此,许多人,甚至聪明的投资者,也会购买那些收取高额管理费的基金。事实上,当一群来自沃顿商学院的精明学生被给予一个假设的 10,000 美元和描述四个指数基金的说明书时,这些基金都是为了模仿标准普尔 500 指数而组成的,学生们绝大多数没有选择费用最低的基金。¹⁹ 事实上,即使每年多支付 1%的费用,在多年后也可能使你的退休基金减少多达三分之一甚至一半,因此这些精明的学生并没有表现出非常精明的行为。
当然,正如斯宾塞-布朗的例子所说明的那样,如果你观察得足够久,你一定会找到一些人,他们仅仅通过运气,真的做出了令人震惊的成功预测。对于那些更喜欢现实世界的例子而不是涉及 10^(1,000,007)个随机数字的数学场景的人来说,可以考虑专栏作家伦纳德·科普特的案例。²⁰ 1978 年,科普特揭示了一个系统,他声称该系统能够在每年的 1 月底确定该日历年度的股市是上涨还是下跌。他说,他的系统在过去十一年中正确地预测了市场。²¹ 当然,在事后很容易识别股票选择系统;真正的考验是它们是否会在未来发挥作用。科普特的系统也通过了这一考验:通过道琼斯工业平均指数来判断市场,它在 1979 年至 1989 年的十一年中连续正确,1990 年出错,然后在 1998 年之前每年都正确。但尽管科普特的预测在十九年中十八次正确,我自信地断言,他的这一连串成功并不涉及任何技能。为什么?因为伦纳德·科普特是《体育新闻》的专栏作家,他的系统基于超级碗的结果,这是职业足球的冠军赛。每当(原始)国家橄榄球联盟的球队获胜时,他预测股市将会上涨。每当(原始)美国橄榄球联盟的球队获胜时,他预测市场将会下跌。考虑到这些信息,很少有人会争论科普特不是运气好。然而,如果他拥有不同的资历——并且没有透露他的方法——他可能会被誉为自查尔斯·H·道以来最聪明的分析师。
作为对科普特故事的反面,现在考虑一下一个确实有资历的人的故事,这个人名叫比尔·米勒。多年来,米勒保持了一种连胜纪录,与科普特的连胜不同,这种连胜被比作乔·迪马乔的五十六场比赛连击和《危险边缘》智力竞赛冠军肯·詹宁斯的七十四场连胜。但至少在一点上,这些比较并不十分恰当:米勒的连胜每年为他赢得的收益,比那些其他先生的终身连胜所赢得的收益还要多。因为比尔·米勒是莱格·梅森价值信托基金的唯一基金经理,在他的十五年连胜期间,他的基金每年都击败了构成标准普尔 500 指数的股票证券组合。
由于他的成就,米勒被《金钱》杂志誉为“20 世纪 90 年代最伟大的基金经理”,被晨星公司评为“十年最佳基金经理”,并被《智能财富》杂志评为 2001 年、2003 年、2004 年、2005 年和 2006 年投资领域最具影响力的三十人之一。²² 在米勒连胜的第十四年,一位分析师在 CNNMoney 网站上引用,称仅凭运气连续十四年的概率为 372,529 比 1(关于这一点稍后还会提到)。²³
学术界将认为随机连击是由于非凡表现而产生的错误印象称为“热手谬误”。关于“热手谬误”的大部分工作都是在体育背景下完成的,因为在体育中,表现容易定义和衡量。此外,游戏规则清晰明确,数据丰富且公开,感兴趣的情况被反复复制。更不用说,这个主题为学者们提供了一个参加比赛并假装他们正在工作的方式。
对“热手谬误”的兴趣始于 1985 年左右,特别是 Tversky 及其同事在《认知心理学》杂志上发表的一篇论文。²⁴ 在那篇论文《篮球中的热手:关于随机序列的误判》中,Tversky 及其同事调查了大量篮球统计数据。当然,球员们的才能各不相同。有些人命中率有一半,有些人更高,有些人更低。每位球员也都有偶尔的冷热波动。论文的作者提出了一个问题:连击的数量和长度与如果每个投篮的结果由随机过程决定时你会观察到的结果相比如何?也就是说,如果球员们不是投篮,而是抛掷反映他们观察到的投篮百分比的硬币,事情会怎样呢?研究人员发现,尽管存在连击,费城 76 人的场地投篮、波士顿凯尔特人的罚球以及康奈尔大学男女篮球队实验控制的场地投篮都没有显示出非随机行为的证据。
尤其是以下指标是“连续性”的直接表现:在先前的尝试中取得成功(即投中篮筐)的条件概率(也就是说,如果玩家在先前的尝试中已经取得成功)。对于有连续性的玩家,在先前的成功之后取得成功的概率应该高于他或她的整体成功概率。但作者发现,对于每个玩家来说,成功之后紧接着的成功与成功之后紧接着的失败(即未投中篮筐)的可能性是一样的。
在 Tversky 的论文发表几年后,诺贝尔物理学奖获得者 E. M. Purcell 决定调查棒球运动中连续性的本质。²⁵ 正如我在第一章中提到的,他发现,用他的哈佛同事斯蒂芬·杰·古尔德的话说,“除了乔·迪马乔的五十六场连续击球外,棒球中从未发生过超过抛硬币模型预测频率的事情。”甚至 1988 赛季开始时,美国职业棒球大联盟巴尔的摩金莺队经历的二十一场连败也不例外。差劲的球员和球队比优秀的球员和球队有更长、更频繁的失败连续性,而优秀的球员和球队比较差的球员和球队有更长、更频繁的成功连续性。但这仅仅是因为他们的平均失败或成功率更高,平均率越高,随机性产生的连续性就越长、越频繁。要理解这些事件,你只需要理解抛硬币的过程。
那么,比尔·米勒的连续性又是怎么回事呢?在考虑到一些其他统计数据的情况下,像米勒这样的连续性可能是由随机过程产生的,这似乎不那么令人震惊。例如,在 2004 年,米勒的基金仅增长了不到 12%,而标准普尔 500 指数的平均股票增长了超过 15%。²⁶ 听起来好像那一年标准普尔打败了米勒,但实际上他在“胜利”栏中计算了 2004 年。这是因为标准普尔 500 指数并不是其所包含的股票价格的简单平均;它是一个加权平均,其中股票的影响力与每家公司的市值成比例。米勒的基金的表现不如标准普尔股票的简单平均,但好于加权平均。实际上,在他连续性的期间,有三十多个十二个月的周期,他的表现不如加权平均,但这些并不是日历年份,连续性是基于 1 月 1 日至 12 月 31 日期间的间隔。²⁷ 因此,从某种意义上说,这个连续性一开始就是人为的,偶然以一种对米勒有利的方式定义。
但我们如何才能调和这些揭示与对他不利的那 372,529 比 1 的概率呢?在讨论米勒的连赢情况时,《一致观察者》通讯(由瑞士信贷第一波士顿出版)的撰稿人说:“在过去 40 年中,没有任何其他基金连续十二年超越市场。”他们提出了一个关于基金偶然完成这一壮举的概率问题,并继续给出了三个概率估计(由于是 2003 年,他们提到了基金连续十二年击败市场的概率):1/4,096,1/477,000 和 1/22 亿。²⁸ 用爱因斯坦的话来说,如果他们的估计是正确的,他们只需要一个。那么实际的概率是多少呢?大约是四分之三,即 75%。这相当大的差异,所以我最好解释一下。
那些引用低概率的人在一个意义上是正确的:如果你在 1991 年初特别指出比尔·米勒,并计算纯粹偶然地选中这个人会在接下来的十五年内击败市场的概率,那么这些概率确实会非常低。如果你每年掷一次硬币,目标是每次都掷出正面,那么你面临的概率也会一样低。但正如在罗杰·马里斯本垒打分析中一样,这些并不是相关的概率,因为现在有数千位共同基金经理(目前超过 6,000 位),并且有多个十五年的时期可以完成这一壮举。所以相关的问题是,如果成千上万的人每年掷一次硬币,并且已经这样做了几十年,那么在某个十五年的时期内,其中一个人连续掷出正面的概率是多少?这个概率远远高于连续掷出十五次正面的概率。
为了使这个解释更具体,假设有 1,000 名基金经理——这显然是一个低估——从 1991 年开始每年掷一次硬币(米勒开始连续获胜的那一年)。第一年后,大约一半的人会掷出正面;两年后,大约四分之一的人会掷出两个正面;第三年后,八分之一的人会掷出三个正面;以此类推。那时,一些掷出反面的人可能会开始退出游戏,但这不会影响分析,因为他们已经失败了。在 15 年后,一个“特定的掷硬币者”连续掷出所有正面的概率是 32,768 分之一。但是,在 1991 年开始掷硬币的 1,000 人中有一个人连续掷出所有正面的概率要高得多,大约是 3%。最后,我们没有理由只考虑那些从 1991 年开始掷硬币的人——基金经理们可以在 1990 年、1970 年或现代共同基金时代的任何一年开始。由于《一致观察者》的作者们在讨论中使用了 40 年,我计算了在过去四十年中,通过偶然机会“某些经理”在某个 15 年期间每年击败市场的概率。这种灵活性再次增加了概率,达到了我之前引用的概率,几乎四分之三。所以,与其对米勒的连续获胜感到惊讶,我可以说,如果没有人达到像米勒那样的连续获胜,你完全可以有理由抱怨那些高薪经理的表现不如他们通过盲目机会的表现!
我在体育和金融世界的背景下引用了一些关于“热手谬误”的例子。但在我们生活的各个方面,我们都会遇到一系列的成功和失败的特殊模式。有时成功占主导地位,有时是失败。无论如何,在我们自己的生活中,采取长远观点并理解那些看似非随机发生的一系列成功或失败确实可能纯粹是偶然发生的,这一点很重要。在评估他人时,也要认识到,在大量的人群中,如果其中一个人没有经历过一段长时间的连续成功或失败,那将会非常奇怪。
没有人将伦纳德·科普特的片面成功归功于他,也没有人会将成功归功于抛硬币的人。许多人确实将功劳归于比尔·米勒。尽管我所进行的分析类型似乎逃过了媒体引用的大多数观察者,但对于从学术角度研究华尔街的人来说,这并不是什么新闻。例如,诺贝尔经济学奖获得者默顿·米勒(与比尔·米勒无亲无故)写道:“如果有 10,000 人在看股票并试图挑选赢家,那么其中只有一个人会偶然得分,这就是全部。这是一个游戏,是一个随机操作,人们认为他们在做有意义的事情,但实际上他们并没有。”²⁹ 我们必须根据具体情况自己得出结论,但至少在理解了随机性如何运作之后,我们的结论不需要是幼稚的。
在前面,我讨论了我们可以如何被随着时间的推移而发展出来的随机序列中的模式所欺骗。但空间中的随机模式也可能同样具有误导性。科学家知道,揭示数据意义的最明显方式之一是将它们以某种图片或图表的形式展示出来。当我们以这种方式看到数据时,我们可能会错过的有意义的关系往往变得明显。代价是我们有时也会感知到现实中没有意义的模式。我们的思维方式就是这样——为了同化数据,填补空白,并寻找模式。例如,看看下面图中的灰色方块排列。

图片来自弗兰克·H·达金,《丁丁效应》,《意识研究杂志》第 9 卷第 5-6 期(2002 年 5 月至 6 月)
这张图片并不字面地看起来像一个人。但你足以理解这个模式,如果你亲自看到这个婴儿的照片,你可能会认出它。而且,如果你将这本书拿在手臂长度处并眯着眼睛看,你可能甚至不会察觉到图像中的不完美。现在看看下面的 X 和 O 的模式:

在这里,我们看到矩形簇,尤其是在角落处。我将它们加粗了。如果 X 和 O 代表感兴趣的事件,我们可能会想探究这些簇是否意味着什么。但我们对它们赋予的任何意义都会是误解,因为这些数据与之前的那组 200 个随机的 X 和 O 完全相同,只是几何上的 5 乘以 40 的排列和选择哪些字母加粗而已。
这个问题在第二次世界大战即将结束时引起了广泛关注,当时 V2 火箭开始如雨点般降落在伦敦。这些火箭令人恐惧,速度超过音速的五倍,以至于人们在它们击中后才听到它们的接近。报纸很快发布了影响地点的地图,这些地图似乎揭示了并非随机的模式,而是有目的的聚集。对一些观察者来说,这些聚集表明了火箭飞行路径控制的精确性,考虑到火箭必须飞行的距离,这表明德国的技术比任何人梦寐以求的都要先进。平民猜测那些未被击中的地区是德国间谍的藏身之处。军事领导人担心德国人可能会针对关键军事设施,造成毁灭性的后果。
1946 年,一篇关于轰炸数据的数学分析发表在《精算师学会杂志》上。其作者 R. D. Clarke 将感兴趣的区域划分为 576 个半公里见方的地块。在这些地块中,有 229 个地块没有受到任何打击,尽管它们的尺寸微小,但有 8 个地块受到了四到五次打击。然而,Clarke 的分析表明,与上面的硬币投掷数据一样,整体模式与随机分布一致。³⁰
类似的问题在癌症聚集现象的报道中经常出现。如果你将任何城市或县划分为地块,并随机分配癌症病例,一些地块将低于平均水平,而另一些则更高。实际上,根据加利福尼亚州卫生部门环境与职业疾病控制处负责人雷蒙德·理查德·内特的说法,对于一个典型的癌症登记——一个关于数十种不同癌症的本地率的数据库——针对加利福尼亚州的 5,000 个普查区,你可能会发现 2,750 个地块存在某种形式的癌症的统计学上显著但随机的增加。³¹ 如果你观察足够多的这类地块,你会在某些地区发现癌症的发生率是正常率的许多倍。
如果你是在癌症分布之后绘制包裹边界,那么情况看起来会更糟。你得到的结果被称为神枪手效应,这个名字来源于一个传说中的人,他因为射击空白纸张并在之后画靶子而射得很好。不幸的是,实践中通常就是这样发生的:首先是一些市民注意到邻居中有癌症患者;然后他们定义了有争议地区的边界。多亏了互联网上数据的可用性,如今美国正在被搜寻这样的集群。不出所料,它们确实被发现了。然而,癌症的发展需要连续的突变。这意味着非常长的暴露时间和/或高度集中的致癌物质。这样的癌症集群要由环境原因发展起来,并在受害者离开受影响地区之前同时显现,几乎是不可能的。根据 Neutra 的说法,为了产生流行病学家通常被要求调查的那种癌症集群,一个群体必须暴露于通常只有在接受化疗的患者或某些工作环境中才可信的致癌物质浓度——比人们在受污染的社区和学校中接收到的浓度要高得多。尽管如此,人们仍然拒绝接受集群是随机波动的解释,因此每年州卫生部门都会收到数千份住宅癌症集群报告,这些报告导致发表了数百篇详尽的分析,但没有一项分析能够令人信服地确定潜在的环境原因。明尼苏达州卫生部的流行病学家 Alan Bender 表示,这些研究“是绝对的、完全的、彻底的浪费纳税人的钱。”³²
到目前为止,在本章中,我们已经考虑了一些随机模式如何欺骗我们的方式。但心理学家并没有满足于仅仅研究和分类这些错误认知。他们还研究了我们为什么会成为这些错误认知的受害者。现在,让我们将注意力转向这些因素中的几个。
人们喜欢控制自己的环境,这就是为什么许多在喝下半瓶威士忌后开车的人,如果他们乘坐的飞机遇到轻微的颠簸,就会感到恐慌。我们想要控制事件并非没有目的,因为个人控制感是我们自我概念和自尊感的重要组成部分。事实上,我们能为自己做的最有益的事情之一就是寻找控制我们生活的途径——或者至少寻找让我们感觉自己能够做到的途径。心理学家布鲁诺·贝特尔海姆(Bruno Bettelheim)观察到,在纳粹集中营中生存“取决于一个人安排保留一些独立行动区域的能力,即使在看似压倒性的环境中,也要保持对自己生活中一些重要方面的控制。” ³³ 后续研究表明,先前的无助感和缺乏控制感与压力和疾病的发作有关。在一项研究中,研究人员突然剥夺了野生老鼠对环境的所有控制权。它们很快停止了生存的挣扎,并死亡。³⁴ 在另一项研究中,在一个被告知将要参加一系列重要测试的受试者群体中,即使是无意义的权力来控制测试的顺序,也被发现可以降低焦虑水平。³⁵
控制心理学的先驱之一是心理学家和业余画家艾伦·兰格(Ellen Langer),她现在是哈佛大学的教授。多年前,当她还在耶鲁大学时,兰格和一位合作者研究了控制感对老年养老院患者的影响。³⁶ 一组患者被告知他们可以决定自己的房间如何布置,并被允许选择一株植物来照料。另一组患者的房间则由他人布置,并为他们选择了一株植物进行照料。几周后,那些对环境有控制权的患者在预先设计的幸福感测量中取得了更高的分数。令人不安的是,18 个月后,一项后续研究让研究人员震惊:没有给予控制权的组死亡率为 30%,而给予控制权的组死亡率为仅 15%。³⁷
为什么人类需要掌控与随机模式讨论相关?因为如果事件是随机的,我们就不是在掌控之中;如果我们掌控事件,它们就不是随机的。因此,我们感到需要掌控与我们的随机识别能力之间存在根本性的冲突。这种冲突是我们误解随机事件的主要原因之一。事实上,诱导人们将运气误认为是技能,或将无意义的行为误认为是掌控,是研究心理学家可以从事的最容易的企业之一。让人们通过按下假按钮来控制闪烁的灯光,即使灯光是随机闪烁的,他们也会相信自己正在成功。³⁸ 向人们展示一个随机闪烁的灯光圈,并告诉他们通过集中注意力,他们可以导致闪烁向顺时针方向移动,他们会惊讶于自己能够实现这一点。或者让两组同时进行类似的竞争——一组努力使灯光沿顺时针方向移动,另一组则试图使灯光逆时针移动——两组将同时感知灯光沿他们意图的方向绕圈移动。³⁹
兰格一次又一次地展示了需要感到掌控一切是如何干扰对随机事件的准确感知。在她的一个研究中,参与者发现,在与一个紧张、笨拙的对手竞争时比与一个自信的对手竞争时更有信心成功,尽管他们竞争的纸牌游戏以及他们成功的概率完全由机会决定。⁴⁰ 在另一个研究中,她要求一群聪明且受过良好教育的耶鲁大学本科生预测三十次随机抛硬币的结果。⁴¹ 实验者秘密操纵结果,使得每个学生正确地预测了一半的时间。他们还安排了一些学生早期就取得了成功。抛硬币后,研究人员对学生们进行了测验,以了解他们如何评估自己的猜测能力。许多人回答说,猜测抛硬币似乎是一种可以培养的技能。四分之一的人报告说,他们的表现会受到干扰的影响。40%的人认为,通过练习他们的表现会提高。当直接要求他们对预测抛硬币的能力进行评分时,那些早期取得成功的学生认为自己在这个任务上的表现比其他人更好,尽管所有受试者的成功次数都是相同的。
在另一个巧妙的实验中,兰格设立了一个彩票,每位志愿者都得到了一张带有球员照片的体育交易卡。⁴² 一张与分发卡片相同的卡片被放在一个袋子里,假设与参与者卡片相匹配的人将被宣布为赢家。参与者被分为两组。一组人被允许选择他们的卡片;另一组则随机得到了一张卡片。在抽奖之前,每个参与者都有机会出售他们的卡片。显然,参与者选择他们的卡片或被随机分配卡片对他们的中奖机会没有影响。然而,那些选择自己卡片的人要求的价格是那些出售随机分配卡片的人的四倍以上。
兰格实验中的受试者“知道”,至少在智力上,他们参与的企业是随机的。例如,当被问及时,交易卡彩票的任何参与者都没有说他们相信被允许选择卡片影响了他们中奖的概率。然而,他们的行为就像它确实影响了他们一样。或者,正如兰格所写,“尽管人们可能口头上承认偶然性的概念,但他们的行为却像偶然事件是可以控制的。” ⁴³
在现实生活中,随机性的作用远不如兰格实验中那么明显,我们对结果和影响它们的能力投入得更多。因此,在现实生活中,抵制控制错觉甚至更加困难。
这种错觉的一种表现是,当一个组织经历一段改善或失败的时期后,它很容易将这种情况归因于构成整个组织状态的无数情况以及运气,而不是归因于最高层的人物。这在体育中尤其明显,正如我在序言中提到的,如果球员们有一年或两年表现不佳,那么被解雇的将是教练。在那些运营规模庞大且复杂,在很大程度上受不可预测的市场力量影响的跨国公司中,最高层的卓越与公司业绩之间的因果关系甚至更不直接,反应性解雇的效果并不比体育中更大。例如,哥伦比亚大学和哈佛大学的研究人员最近研究了许多公司,这些公司的章程使他们容易受到股东要求他们通过更换管理层来应对困难时期的压力。⁴⁴ 他们发现,在解雇后的三年里,平均运营绩效(收益的衡量标准)并没有改善。无论首席执行官的能力有何不同,他们都被系统不可控元素的影响所淹没,就像音乐家在足够噪音和静电的广播中,他们的差异可能变得不明显。然而,在确定薪酬时,公司董事会往往表现得好像首席执行官是唯一重要的人。
研究表明,在金融、体育,尤其是商业场合,当随机任务的结果在一段策略规划(那些无休止的会议)之后出现,当完成任务需要积极参与(那些在办公室的漫长小时)或者当存在竞争时(这种情况很少发生,对吧?),对随机事件的控制错觉会得到增强。对抗控制错觉的第一步是意识到它。但即使如此,也很困难,因为正如我们在接下来的几页中将要看到的,一旦我们认为我们看到了一个模式,我们就不容易放弃我们的看法。
假设我告诉你,我制定了一套用于构建三个数字序列的规则,并且序列 2, 4, 6 满足我的规则。你能猜出这个规则吗?单个的三个数字序列并不足以推断出规则,所以让我们假设,如果你给我提供其他三个数字的序列,我会告诉你它们是否满足我的规则。请花点时间想一些三个数字的序列来测试——阅读书籍比面对面交流的优势在于,在书中作者可以表现出无限的耐心。
现在你已经思考过你的策略,我可以告诉你,如果你像大多数人一样,你呈现的序列可能看起来像 4, 6, 8 或者 8, 10, 12 或者 20, 24, 30。是的,那些序列遵循我的规则。那么规则是什么呢?大多数人,在提出了一打这样的测试案例之后,会变得自信,并得出结论,认为规则是序列必须由递增的偶数组成。但实际上我的规则仅仅是序列必须由递增的数字组成。例如,序列 1, 2, 3 就会符合;没有必要要求数字是偶数。你想到的序列是否揭示了这一点?
当我们陷入幻觉的掌握之中——或者,更确切地说,无论何时我们有一个新想法——我们通常不是寻找证明我们的想法错误的方法,而是试图证明它们是正确的。心理学家称这种现象为确认偏误,它阻碍了我们摆脱对随机性的错误解释的能力。在上面的例子中,大多数人立即认识到这个序列是由递增的偶数组成的。然后,为了证实他们的猜测,他们尝试了许多更多类型的序列。但很少有人能快速找到答案——通过测试包含奇数的序列来试图通过证伪他们的想法。⁴⁵ 如哲学家弗朗西斯·培根在 1620 年所说:“人类理解力一旦采纳了一种观点,就会收集任何证实它的实例,尽管相反的实例可能更多、更重要,但它要么没有注意到它们,要么拒绝它们,以便这种观点不会动摇。”⁴⁶
情况更糟的是,我们不仅倾向于寻找证据来证实我们的先入之见,而且还会将模糊的证据解释为我们观点的有利证据。这可能会成为一个大问题,因为数据往往是模糊的,因此通过忽略某些模式并强调其他模式,我们聪明的大脑甚至在没有令人信服的数据的情况下也能加强他们的信念。例如,如果我们根据薄弱的证据得出结论,认为新邻居不友好,那么任何可能被解释为这种观点的未来行为都会在我们的脑海中突出,而那些不符合这种观点的行为则容易被遗忘。或者如果我们相信某个政治家,那么当她取得好成绩时,我们会归功于她,当她失败时,我们会责怪环境或另一方,无论如何都在加强我们最初的看法。
在一项生动地说明了这一效果的研究中,研究人员聚集了一群大学生,其中一些支持死刑,而另一些则反对。⁴⁷ 研究人员随后向所有学生提供了关于死刑有效性的相同一套学术研究。一半的研究支持死刑具有威慑作用的观点;另一半则反驳这一观点。研究人员还向受试者提供了暗示每个研究弱点的小提示。之后,大学生们被要求单独评价研究的质量,以及他们的死刑态度是否以及如何受到阅读的影响。参与者对证实他们最初观点的研究给出了更高的评价,即使双方的研究都声称是采用相同的方法进行的。最后,尽管每个人都阅读了相同的研究,但最初支持死刑和最初反对死刑的人报告说,阅读研究加强了他们的信念。数据并没有说服任何人,反而使群体两极分化。因此,即使随机模式,如果与我们的先入之见相关,也可以被解释为有说服力的证据。
确认偏误在现实世界中带来了许多不幸的后果。当一位教师最初认为某个学生比另一个学生聪明时,他会选择性地关注那些倾向于证实这一假设的证据。⁴⁸ 当雇主面试一位潜在候选人时,雇主通常会形成快速的第一印象,并在剩余的面试中寻找支持这一印象的信息。⁴⁹ 当临床环境中的咨询师事先被告知面试者具有攻击性时,他们往往会得出结论,即使面试者的攻击性并不比普通人更严重。⁵⁰ 而当人们解释少数族裔成员的行为时,他们会在先入为主的刻板印象的背景下进行解释。⁵¹
人类大脑已经进化得非常擅长模式识别,但正如确认偏误所显示的,我们专注于寻找和证实模式,而不是最小化我们的错误结论。然而,我们不必悲观,因为克服我们的偏见是可能的。仅仅意识到偶然事件也会产生模式,就是一个很好的开始。如果我们学会质疑我们的感知和理论,那就是另一个巨大的进步。最后,我们应该学会花同样多的时间去寻找我们错误的证据,就像我们寻找我们正确的原因一样。
我们对随机性的探索之旅现在几乎接近尾声。我们始于简单的规则,并继续学习它们如何在复杂的系统中自我反映。在所有最重要的复杂系统中——我们的个人命运中,机会扮演了多么重要的角色?这是一个困难的问题,它贯穿了我们迄今为止考虑的大部分内容。尽管我无法完全回答它,但我确实希望为它带来一些启示。我的结论可以从以下章节的标题中看出,它与本书的标题相同:“醉汉的漫步”。
第十章
《醉酒的漫步》
1814 年,在牛顿物理学的巨大成功达到顶峰之际,皮埃尔-西蒙·拉普拉斯写道:
如果一个智能体在某一时刻知道所有自然界的力量以及每个构成物体的位置;如果这个智能体足够强大,能够将这些数据进行分析,那么它就能在同一个公式中包含宇宙中最大天体的运动和最小原子的运动:对于这个智能体来说,没有什么是不确定的,未来,就像过去一样,会呈现在它的眼前。¹
拉普拉斯表达了一种被称为决定论的观点:即现在的世界状态精确地决定了未来的展开方式。
在日常生活中,决定论意味着一个我们的个人品质和任何给定情况或环境的属性直接且明确地导致精确后果的世界。这是一个有序的世界,在这个世界里,一切都可以预见、计算、预测。但为了使拉普拉斯的梦想成为现实,必须满足几个条件。首先,自然定律必须规定一个确定的未来,我们必须知道这些定律。其次,我们必须能够获取完全描述感兴趣系统的数据,不允许有未预见的因素。最后,我们必须拥有足够的智慧或计算能力,能够根据当前的数据决定定律认为未来将保持什么。在这本书中,我们考察了许多有助于我们理解随机现象的概念。在这个过程中,我们获得了对各种具体生活情况的洞察。然而,仍然存在一个更大的图景,即随机性在多大程度上影响了我们生活中的位置,以及我们能够多好地预测我们将走向何方的问题。
在从文艺复兴晚期到维多利亚时代研究人类事务的过程中,许多学者分享了拉普拉斯对决定论的信仰。他们感觉像高尔顿一样,认为我们的人生道路严格由我们的个人品质决定,或者像凯特莱特一样,他们相信社会的未来是可以预测的。他们常常受到牛顿物理学的成功启发,并相信人类的行为可以像自然界中的其他现象一样可靠地预测。对他们来说,日常世界的未来事件应该像行星轨道一样,严格由当前的状态决定。
在 20 世纪 60 年代,一位名叫爱德华·洛伦兹的气象学家试图利用他那个时代的最新技术——一台原始的计算机——在有限的天气领域内实施拉普拉斯的计划。也就是说,如果洛伦兹向他的嘈杂机器提供有关他理想化地球在某个特定时间的气象条件的数据,那么它将利用已知的气象学定律来计算并打印出代表未来时间天气条件的数字行。
有一天,洛伦茨决定要将一个特定的模拟扩展到更远的未来。他不想重复整个计算过程,于是决定从计算中途开始,采取捷径。为了实现这一点,他使用了早期模拟中打印出来的初始条件数据。他预期计算机将重新生成之前模拟的剩余部分,并将其进一步推进。但出乎意料的是,他注意到一些奇怪的现象:天气的发展轨迹与之前不同。新的模拟并没有复制之前模拟的结尾,而是大幅度偏离了。他很快意识到原因:在计算机的内存中,数据存储到小数点后六位,但在打印输出中,它们只被引用到小数点后三位。因此,他提供的数据有细微的偏差。例如,像 0.293416 这样的数字在打印输出中可能简单地显示为 0.293。
科学家通常假设,如果一个系统的初始条件略有改变,那么该系统的演变也会略有改变。毕竟,收集天气数据的卫星只能测量到小数点后两三位参数,因此它们甚至无法追踪像 0.293416 和 0.293 之间的如此微小的差异。但洛伦茨发现,这样的小差异会导致结果发生巨大变化。²这一现象被称为蝴蝶效应,基于这样的暗示,即如此微小的气候变化,以至于可能是由一只蝴蝶拍打翅膀引起的,可以对随后的全球天气模式产生重大影响。这种观点可能听起来很荒谬——相当于你某天早上多喝的那一杯咖啡可能导致你生活中发生深刻的变化。但实际上,这种情况确实会发生——例如,如果你多花的时间导致你在火车站偶遇未来的妻子,或者错过被一辆闯红灯的汽车撞到。事实上,洛伦茨的故事本身就是一个蝴蝶效应的例子,因为如果不是他做出了使用捷径扩展计算的决定,他就不会发现蝴蝶效应,这一发现激发了一个全新的数学领域的诞生。当我们仔细回顾我们生活中的重大事件时,能够识别出这样的看似微不足道的随机事件,这些事件导致了巨大的变化,这种情况并不少见。
人类事务中的决定论由于几个原因而未能满足拉普拉斯所提到的预测性要求。首先,据我们所知,社会并不是像物理学那样由确定和基本定律所统治。相反,人们的行为不仅不可预测,正如卡尼曼和特弗斯反复展示的那样,而且往往是非理性的(即我们采取的行动与我们的最佳利益相悖)。其次,即使我们能够发现人类事务的规律,就像凯特莱特试图做的那样,也不可能精确地了解或控制生活的环境。也就是说,就像洛伦茨一样,我们无法获得进行预测所需的精确数据。第三,人类事务如此复杂,以至于我们即使理解了规律并拥有了数据,也怀疑我们能否进行必要的计算。因此,决定论对于人类经验来说是一个糟糕的模型。或者,正如诺贝尔奖获得者马克斯·玻恩写道,“机会比因果关系是一个更基本的概念。”³
在对随机过程进行科学研究时,醉酒汉的漫步是一个原型。在我们的生活中,它也提供了一个恰当的模型,因为就像花粉颗粒在布朗流体中漂浮一样,我们不断地被随机事件推向这个方向或那个方向。结果,尽管在社会数据中可以找到统计规律性,但特定个人的未来是无法预测的,而且对于我们的特定成就、工作、朋友、财务状况,我们都比许多人意识到的更多依赖于机会。在接下来的几页中,我还将进一步论证,在所有除了最简单的现实生活努力之外,不可预见或不可预测的力量是无法避免的,而且这些随机力量以及我们对它们的反应构成了我们生活中独特路径的很大一部分。我将通过探讨那个想法的一个明显矛盾来开始我的论证:如果未来真的是混沌和不可预测的,那么为什么在事件发生后,它往往似乎我们应该能够预见它们?
在 1941 年秋季,日本袭击珍珠港前的几个月,东京的一个特工向檀香山的一个间谍发送了一个令人担忧的请求。⁴ 请求被截获并送到了海军情报办公室。它经过官僚机构的层层传递,于 10 月 9 日以解码和翻译的形式抵达华盛顿。信息要求檀香山的日本间谍将珍珠港划分为五个区域,并就这些区域内的船只进行报告。特别关注的是战列舰、驱逐舰和航空母舰,以及多艘船只同时停泊在同一码头的信息。几周后,又发生了另一件奇怪的事情:美国监视舰失去了第一和第二日本舰队所有已知航空母舰的无线电通信,因此也失去了它们位置的任何了解。然后在 12 月初,夏威夷第十四海军区的作战情报单位报告说,日本人在一个月内第二次更改了他们的呼号。呼号,如 WCBS 或 KNPR,是识别无线电传输来源的标识。在战争中,它们不仅向盟友,也向敌人揭示了来源的身份,因此它们会定期更改。日本人习惯于每六个月或更长时间更改一次。在三十天内更改两次被视为“为大规模行动做准备的一步。”这次更改使得在接下来的几天里识别日本航空母舰和潜艇的位置变得困难,进一步混淆了无线电静默的问题。
两天后,发送到香港、新加坡、雅加达、马尼拉、华盛顿和伦敦的日本外交和领事机构的消息被截获并解码。它们要求外交官立即销毁大部分密码和密文,并烧毁所有其他重要机密和秘密文件。大约在同一时间,联邦调查局也截获了从夏威夷日本领事馆的厨师打给檀香山某人的电话,电话中厨师激动地报告说那里的官员正在烧毁所有主要文件。陆军情报部门主要单位的助理负责人乔治·W·比克内尔上校在准备与陆军夏威夷部门负责人共进晚餐时,将截获的一条消息带给了他的上司。那是 12 月 6 日星期六的下午晚些时候,袭击的前一天。比克内尔的上司考虑了五分钟的信息,然后将其摒弃,并去吃饭了。当从后视镜来看这些事件如此凶兆重重时,为什么知道这些信息的人没有预见到袭击的到来呢?
在任何由一系列事件组成且每个事件都带有一定不确定性的复杂事件链中,过去和未来之间存在着根本的不对称性。自从玻尔兹曼对其负责流体特性的分子过程进行统计分析以来,这种不对称性一直是科学研究的主题(参见第八章)。例如,想象一个染料分子在水中漂浮。这个分子就像布朗颗粒中的一个,会进行醉酒者的漫步。但即使这种无目的的运动也会在某些方向上取得进展。例如,如果你等待三个小时,分子通常会从起始点移动大约一英寸。假设在某个时刻,分子移动到一个具有显著位置,并最终引起我们的注意。就像珍珠港事件之后许多人所做的那样,我们可能会寻找那个意外事件发生的原因。现在假设我们深入探究分子的过去。实际上,假设我们追踪了所有碰撞的记录。我们确实会发现,最初是水分子的一次碰撞,然后是另一次碰撞,推动了染料分子从那里到这里的曲折路径。换句话说,从后视镜中,我们可以清楚地解释为什么染料分子的过去发展成这样。但是,水中还含有许多其他水分子,它们可能是与染料分子发生相互作用的水分子。因此,要事先预测染料分子的路径,我们就必须计算所有那些可能重要的水分子路径和相互作用的数量。这将涉及到几乎无法想象的数学计算,其范围和难度远远超过理解过去所需的碰撞列表。换句话说,即使事后相对容易理解,但在事先预测染料分子的运动实际上是几乎不可能的。
这种基本的不对称性是为什么在日常生活中,即使我们当时无法预测,过去的事情往往显得很明显。这就是为什么天气预报员可以告诉你三天前冷锋为何这样移动,昨天暖锋为何那样移动,导致你的浪漫花园婚礼下雨,但同样的预报员在预测三天后锋面的行为以及提供你准备那个大帐篷所需的警告方面却不太成功。或者考虑一下下棋。与牌类游戏不同,象棋不涉及任何明确的随机元素。然而,由于双方玩家都无法确切知道对方下一步会做什么,因此存在不确定性。如果玩家是专家,在游戏的大部分时间里,可能可以看到几步未来的走势;如果你看得更远,不确定性会加剧,没有人能够有信心地说出游戏将如何结束。另一方面,回顾过去,通常很容易说出每个玩家为何做出这样的移动。这同样是一个难以预测未来的概率过程,但过去却容易理解。
同样,股市也是如此。例如,考虑一下共同基金的表现。正如我在第九章中提到的,在选择共同基金时,查看过去的表现是很常见的。事实上,回顾过去时,很容易找到漂亮的、有序的模式。这里,例如,是一个关于 1991-1995 年五年期间 800 位共同基金经理表现的图表。

1991-1995 年五年期间顶级共同基金的业绩与排名。
在垂直轴上绘制的是相对于该组平均基金的基金收益或损失。换句话说,0%的回报率意味着该基金在这五年期间的业绩是平均的。在水平轴上绘制的是管理者的相对排名,从第 1 名表现者到第 800 名表现者。要查找给定五年期间第 100 位最成功的共同基金经理的表现,你需要在图表上找到对应于水平轴上标记为 100 的点。
毫无疑问,任何分析师都可以给出许多令人信服的理由来解释为什么这里代表的高级管理人员成功了,为什么低级管理人员失败了,以及为什么曲线应该呈现这种形状。无论我们是否花时间详细跟踪这种分析,选择过去五年表现低于平均水平 10 个百分点的基金而不是表现高于平均水平 10 个百分点的基金的投资者寥寥无几。回顾过去,很容易构建这样的漂亮图表和整洁的解释,但这种事件逻辑图只是事后诸葛亮,对未来事件预测的相关性很小。例如,在第十章的图表中,我比较了同一基金在初始五年期的表现,以及下一个五年期的表现。换句话说,我维持了基于 1991-1995 年期间的排名,但显示了基金在 1996-2000 年期间实现的回报。如果过去是未来的良好指示,那么我在 1991-1995 年期间考虑的基金在 1996-2000 年期间应该有或多或少相同的相对表现。也就是说,如果赢家(图表左侧)继续比其他人做得更好,而输家(图表右侧)做得更差,那么这个图表应该几乎与上一个相同。相反,正如我们所看到的,当外推到未来时,过去的顺序消失了,图表最终看起来像随机噪声。
人们系统地未能看到机会在创业成功以及像股权基金经理比尔·米勒这样的人成功中所扮演的角色。我们不合理地相信过去的错误一定是无知或不称职的结果,并且可以通过进一步学习和提高洞察力来纠正。这就是为什么,例如,在 2007 年春季,当美林证券的股票交易价格在每股 95 美元左右时,其首席执行官 E.斯坦利·奥尼尔可以被赞扬为承担风险的天才,而在 2007 年秋季,信贷市场崩溃后,被嘲笑为承担风险的牛仔,并且很快被解雇。我们自动给予超级商业巨头、政治家和演员以及任何乘坐私人飞机的人以尊重,好像他们的成就必须反映独特的品质,这些品质不是那些被迫吃商业航班食物的人所共有的。我们对那些声称有记录证明专业知识的政治评论家、金融专家和商业顾问的过于精确的预测过于自信。

1991-1995 年间顶级基金在 1996-2000 年的表现。
我熟悉的一家大型出版公司费尽心思为其教育软件部门制定了为期一年、三年和五年的计划。这里有高薪顾问、漫长的市场营销会议、深夜的财务分析会议,以及长时间的异地下午会议。最终,直觉被转化为声称具有数位精度公式的公式,而大胆的猜测则被编码为可能的成果。当第一年某些产品没有达到预期销量,或者其他产品销量超出预期时,找到了原因,并相应地责备或表扬了适当的员工,仿佛最初的预期是有意义的。第二年,两个竞争对手引发了一系列不可预见的价格战。接下来的一年,教育软件市场崩溃。随着不确定性的加剧,三年计划从未有机会成功。而五年计划,就像钻石一样磨光和精确,从未与业绩进行比较,因为那时该部门几乎所有人都已经转向了更广阔的天地。
历史学家,他们的职业是研究过去,对事件以可预测的方式展开的想法持谨慎态度,就像科学家一样。事实上,在历史研究中的必然性幻觉具有如此严重的后果,以至于这是保守派和社会主义历史学家可以达成共识的少数事情之一。例如,社会主义历史学家理查德·亨利·托尼(Richard Henry Tawney)是这样说的:“历史学家通过将那些取得胜利的力量拖入显眼的位置,将那些被他们吞没的力量推入背景,给人一种必然性的外观。” ⁵ 获得罗纳德·里根总统自由勋章的历史学家罗伯塔·沃尔斯泰特(Roberta Wohlstetter)是这样说的:“当然,事件发生后,信号总是清晰可见的;我们现在可以看到它预示了什么样的灾难。……但在事件发生之前,它是模糊的,充满了相互矛盾的意义。” ⁶
在某种意义上,这个想法被一个陈词滥调所概括,即事后诸葛亮总是看得清清楚楚,但人们往往表现得好像这个谚语并不成立。例如,在政府中,每次悲剧发生后都会进行一场本应知道的指责游戏。在珍珠港事件(以及 9/11 袭击)的情况下,当我们回顾导致袭击的事件时,它们显然指向了一个明显的方向。然而,就像染料分子、天气或棋局一样,如果你在事件发生之前就开始追踪事件并向前追溯,必然性的感觉会迅速消失。首先,除了我引用的情报报告之外,还有大量的无用情报,每周都会带来新的、有时令人担忧或神秘的电报、记录和副本,这些后来证明是误导性的或不重要的。即使我们专注于事后看来重要的报告,在袭击之前,每个报告都存在一个合理的替代解释,这个解释并没有指向对珍珠港的突袭。例如,将珍珠港划分为五个区域的要求在风格上与其他发送给巴拿马、温哥华、旧金山和俄勒冈州波特兰的日本特工的要求相似。无线电联系中断也不是闻所未闻的事情,过去常常意味着战舰在家域内,通过电报陆地线路进行通信。此外,即使你相信战争正在扩大,许多迹象都指向其他地方的袭击——例如菲律宾、泰国半岛或关岛。当然,与染料分子遇到的水分子相比,没有那么多误导性的线索,但足以模糊对未来的清晰视野。
在珍珠港事件之后,美国国会七个委员会深入调查了军事为何错过了所有即将到来的攻击“迹象”的过程。例如,陆军参谋长乔治·马歇尔将军就因为 1941 年 5 月给罗斯福总统的一封备忘录而受到严厉批评,他在备忘录中写道:“由于瓦胡岛有坚固的防御、驻军和物理特性,被认为是世界上最强大的堡垒”并安慰总统说,如果发生攻击,敌军将在“距离目标 200 英里以内被拦截……通过所有类型的轰炸。”马歇尔将军并非傻瓜,但他也没有水晶球。随机性的研究告诉我们,水晶球式的对事件的看法是可能的,但遗憾的是,只有在事件发生后才能实现。因此,我们认为自己知道为什么一部电影受欢迎,一个候选人赢得了选举,一场风暴来袭,股票下跌,一支足球队输球,新产品失败,或者疾病恶化,但这种专业知识在意义上是空洞的,因为它在预测何时一部电影受欢迎,一个候选人将赢得选举,一场风暴来袭,股票将下跌,一支足球队将输球,新产品将失败,或者疾病将恶化方面几乎毫无用处。
编造解释过去的故事或对未来的可疑情景感到自信很容易。这种努力中存在陷阱并不意味着我们不应该进行这些努力。但我们可以努力使自己对直觉错误免疫。我们可以学会以怀疑的态度看待解释和预言。我们可以专注于对事件的反应能力,而不是依赖预测它们的能力,专注于灵活性、自信、勇气和毅力等品质。我们还可以更加重视我们对人们的直接印象,而不是他们吹嘘的过去成就。通过这些方法,我们可以抵制在我们自动决定性框架中形成判断。
1979 年 3 月,另一系列著名的未预见到的事件发生了,这一次是在宾夕法尼亚州的一家核电站。⁷ 这导致了反应堆部分熔化,其中核反应发生,威胁向环境释放令人担忧的辐射剂量。事故始于一杯左右的水从称为抛光机的过滤器的一个泄漏的密封处流出。泄漏的水进入了一个气动系统,该系统驱动电站的一些仪器,触发了两个阀门。触发的阀门切断了冷水流向电站的蒸汽发生器——这是负责从反应堆核心产生的核反应中移除热量的系统。随后启动了应急水泵,但两天前维护后,其两条管道中的每个阀门都处于关闭位置。因此,水泵在向一个死胡同泵送水,毫无用处。此外,压力释放阀也失败了,控制室中的仪表也失败了,该仪表本应显示阀门没有工作。
单独来看,每一次的失败都被认为是既普遍又可接受的。抛光机问题在工厂里并不罕见,通常也不太严重;在一个核电站中,数百个阀门定期被打开或关闭,有些阀门处于错误位置并不被认为是罕见或令人担忧的;而且压力释放阀已知有些不可靠,在至少其他十一座核电站中有时会失败而没有造成重大后果。然而,将这些失败串联起来,这座电站似乎就像是由基科斯克警探管理的。因此,在三里岛事件之后,出现了许多调查和大量的责任归咎,以及一个非常不同的后果。这一系列事件促使耶鲁社会学家查尔斯·佩罗(Charles Perrow)提出了一个新的事故理论,其中规定了本章的核心论点:在复杂系统中(其中包括我自己的生活),我们应该预期通常可以忽略的微小因素有时会偶然导致重大事件。⁸
在他的理论中,佩罗认识到现代系统由成千上万的部件组成,包括可能犯错的决策者,它们以类似于拉普拉斯原子的方式相互关联,无法单独追踪和预测。然而,人们可以赌的是,正如执行醉酒者漫步的原子最终会到达某个地方一样,事故最终也会发生。被称为正常事故理论,佩罗的教义描述了这是如何发生的——事故如何在没有明显原因、没有那些企业或政府委员会寻求的明显错误和不称职的恶棍的情况下发生。但尽管正常事故理论是关于为什么不可避免地有时事情会出错的理论,但它也可以反过来解释为什么不可避免地有时事情会顺利进行。因为在复杂的项目中,无论我们失败多少次,如果我们继续尝试,我们通常有很大的机会最终会成功。事实上,像 W. Brian Arthur 这样的经济学家认为,微小的因素的巧合甚至可以使没有特别优势的公司主导其竞争对手。“在现实世界中,”他写道,“如果几家规模相似的公司同时进入市场,一些小的偶然事件——意外的订单、与买家的偶然相遇、管理层的异想天开——将有助于决定哪些公司获得了早期的销售,随着时间的推移,哪些公司最终占据了主导地位。经济活动是由单个交易决定的,这些交易太小,无法预见,而这些小的‘随机’事件可能会随着时间的推移通过正反馈积累并放大。”⁹
社会学研究者也注意到了同样的现象。例如,有一组研究者研究了社会学家所说的文化产业——书籍、电影、艺术、音乐——中消费者的购买习惯。那些领域的传统营销智慧是,成功是通过预测消费者偏好来实现的。在这种观点中,管理者最有效率的做法是研究像斯蒂芬·金、麦当娜或布鲁斯·威利斯这样的东西是什么吸引了如此多的粉丝。他们研究过去,正如我刚才所论证的,他们没有困难地提取出他们试图解释的任何成功的理由。然后他们尝试复制它。
这就是市场中的决定性观点,在这种观点中,主要是由个人或产品的内在品质决定了成功。但还有另一种看待它的方式,即非决定性观点。在这种观点中,有许多高质量但鲜为人知的书籍、歌手、演员,而某个或某个人之所以脱颖而出,很大程度上是由于随机和微小的因素——即运气。在这种观点中,传统的管理者只是在原地打转。
多亏了互联网,这个想法得到了测试。测试这个想法的研究人员专注于音乐市场,其中互联网销售正在占据主导地位。为了他们的研究,他们招募了 14,341 名参与者,要求他们听、评分,如果他们愿意,下载他们未曾听过的 48 首歌曲。¹⁰ 其中一些参与者也被允许查看每首歌曲的流行数据——也就是说,查看有多少其他参与者下载了它。这些参与者被分为八个独立的“世界”,并且只能看到他们自己世界中的人的下载数据。所有世界中的艺术家开始时都是零下载,之后每个世界独立发展。还有一个第九组参与者,他们没有看到任何数据。研究人员使用这个后一组隔离听众的歌曲流行度来定义每首歌曲的“内在质量”——也就是说,在没有外部影响的情况下它的吸引力。
如果世界的决定性观点是正确的,那么相同的歌曲应该在每个八个世界中都占据主导地位,并且这些世界的流行排名应该与由孤立个体确定的内在质量相一致。但研究人员发现正好相反:不同世界中个人歌曲的流行度差异很大,而且内在质量相似的不同歌曲在流行度上也有很大的差异。例如,一支名为 52metro 的乐队的一首名为“Lockdown”的歌曲在内在质量上排名第 26,但在一个世界中是排名第一的歌曲,在另一个世界中则是第 40 名。在这个实验中,由于一首歌或另一首歌偶然在下载中取得了早期优势,它的看似流行度影响了未来的购物者。这在电影行业中是一个众所周知的现象:当电影观众事先听到电影有多好时,他们报告说更喜欢这部电影。在这个例子中,小的机会影响产生了滚雪球效应,对歌曲的未来产生了巨大影响。再次强调,这是蝴蝶效应。
在我们的生活中,通过显微镜般的细致观察,我们也能看到,许多重大事件如果不是因为一些微不足道因素的随机结合,比如偶然遇到的人,随机出现的就业机会,结果可能会完全不同。例如,考虑一下这位演员,从 20 世纪 70 年代末开始,他在曼哈顿第四十九街的五层公寓里住了七年,努力为自己赢得名声。他在百老汇外演出,有时距离很远,还在电视广告中工作,尽其所能地争取注意,建立事业,并赚取足够的钱在餐厅偶尔享用牛排,而不用在结账前逃之夭夭。像许多其他有抱负的人一样,无论这位有抱负的演员多么努力地争取合适的角色,做出正确的职业选择,并在他的行业中脱颖而出,他最可靠的角色始终是他另一个职业中的角色——酒吧招待。然后在 1984 年夏天的一天,他飞往洛杉矶,要么是去参加奥运会(如果你相信他的公关),要么是去拜访一个女朋友(如果你相信《纽约时报》)。无论哪个说法准确,有一点是明确的:访问西海岸的决定与表演关系不大,而与爱情,或者至少是体育之爱有很大关系。然而,这证明是他做出的最好的职业决定,很可能是他一生中做出的最好的决定。
这位演员的名字是布鲁斯·威利斯,当他身处洛杉矶时,一位经纪人建议他参加几场电视试镜。¹¹ 其中一场是在选角进入最后阶段的电视剧。制片人已经有一份心目中的决赛选手名单,但在好莱坞,除非合同上的墨水干了,诉讼结束,否则没有什么是最终的。威利斯获得了试镜机会,并成功获得了角色——那就是与西比尔·谢泼德搭档的新 ABC 电视剧《月光下的阴影》中的男主角大卫·艾迪生。
很可能有人会相信,威尔士(Willis)是显而易见的选择,超过名单顶端的 X 先生,当新来者到达时,而其余的,正如人们所说,就是历史。既然事后我们知道《月光光》(Moonlighting)和威尔士都取得了巨大的成功,很难想象看到威尔士的好莱坞决策者们除了点燃雪茄庆祝他们卓越的发现,并烧毁他们现在过时的决赛名单之外,还会做些什么。但实际在试镜会上发生的事情更像是当你让孩子们出去买一加仑冰淇淋,而两个想要草莓味,第三个却要三倍巧克力布朗尼时的情景。网络高管们为 X 先生争斗,他们认为威尔士看起来不像一个严肃的主角。作为《月光光》的执行制片人,格伦·卡隆(Glenn Caron)为威尔士辩护。回顾过去,很容易将网络高管们视为无知的小丑。根据我的经验,电视制片人经常这样做,尤其是在高管们听不见的时候。但在我们做出选择之前,考虑一下这个:电视观众最初同意高管们平庸的评估。《月光光》于 1985 年 3 月首播,收视率很低,整个第一季的表现都相当平庸。只有在第二季,观众们才改变主意,这部剧才成为一部大热门。威尔士的魅力和成功似乎直到他突然成为明星之前都是不可预见的。这个故事可能被归咎于疯狂的好莱坞,但威尔士的成功之路并不罕见。被随机冲击和意外后果所打断的道路是许多成功人士的道路,不仅在他们的职业生涯中,也在他们的爱情、爱好和友谊中。事实上,这与其说是例外,不如说是规则。
最近我正在看深夜电视,另一位明星,虽然不是娱乐界的,出现在一个访谈中。他的名字叫比尔·盖茨(Bill Gates)。尽管主持人以其讽刺的方式著称,但对他似乎特别恭敬。甚至观众似乎都在盯着盖茨看。原因,当然,是因为连续十三年,《福布斯》杂志将他评为世界上最富有的人。事实上,自从创立微软以来,盖茨每秒钟赚了超过 100 美元。因此,当被问及他对互动电视的愿景时,每个人都怀着极大的期待等待他发表意见。但他的回答很普通,并不比我从其他 dozen 计算机专业人士那里听到的任何东西更有创意、更巧妙或更有洞察力。这让我们回到了这个问题:盖茨每秒钟赚 100 美元是因为他像神一样,还是因为他每秒钟赚 100 美元才像神一样?
在 1980 年 8 月,当一群在秘密项目上工作的 IBM 员工飞往西雅图与年轻的计算机企业家比尔·盖茨会面时,比尔·盖茨正在经营一家小公司,而 IBM 需要为其计划中的“家用电脑”开发一个程序,即操作系统。关于随后发生事件的回忆各不相同,但大致情况如下:¹² 盖茨表示他无法提供操作系统,并将 IBM 的人推荐给了数字研究公司(Digital Research Inc.)的一位著名程序员,名叫加里·基尔代尔(Gary Kildall)。IBM 与基尔代尔的谈判并不顺利。一方面,当 IBM 出现在 DRI 的办公室时,基尔代尔的当时妻子,公司的业务经理,拒绝签署 IBM 的非公开协议。IBM 的使者再次来电,这次基尔代尔与他们见面了。没有人确切知道那次会议中发生了什么,但如果达成了非正式协议,它并没有持续下去。大约在这个时候,IBM 的一名员工杰克·萨姆斯(Jack Sams)再次见到了盖茨。他们都知道另一个可用的操作系统,这个系统根据你询问的人不同,可能是基于或受到基尔代尔启发的。据萨姆斯说,盖茨说:“你是想要……[那个操作系统],还是想要我帮你弄?”萨姆斯显然没有意识到其中的含义,回答说:“当然,你弄吧。”盖茨确实以 5 万美元(或者据某些说法,稍多)的价格,做了一些修改,并将其重新命名为 DOS(磁盘操作系统)。显然,IBM 对其新想法的潜力信心不足,以低廉的每份副本版税费率从盖茨那里获得了 DOS 的许可,让盖茨保留了权利。DOS 并不比,比如说,苹果的 Macintosh 操作系统更好——许多计算机专业人士,包括大多数,都会认为它更差。但 IBM 用户基础的不断增长鼓励软件开发者为 DOS 编写软件,从而鼓励潜在用户购买 IBM 机器,这种情况反过来又鼓励软件开发者为 DOS 编写软件。换句话说,正如 W. Brian Arthur 所说,人们购买 DOS 是因为人们正在购买 DOS。在计算机企业家流动的世界里,盖茨成为了脱离群体的一员。但如果没有基尔代尔的缺乏合作精神、IBM 的缺乏远见,或者萨姆斯和盖茨的第二次相遇,尽管盖茨拥有任何先见之明或商业洞察力,他可能只是另一个软件企业家,而不是世界上最富有的人,这也可能是为什么他的愿景看起来就像另一个软件企业家一样的原因。
我们的社会可能会迅速将富人捧成英雄,将穷人贬为羊。这就是为什么房地产大亨唐纳德·特朗普,尽管他的广场酒店破产,他的赌场帝国两次破产(1994 年投资他赌场公司的 1 万美元股东在 13 年后只得到 636 美元),¹³ 仍然敢于主演一档极为成功的电视节目,在该节目中他评判有抱负的年轻人的商业洞察力。
显然,将聪明才智与财富成比例分配是一种错误。我们无法看到一个人的潜力,只能看到他的或她的成果,所以我们常常通过认为成果必须反映个人来误判他人。生活的正常事故理论表明,行动与奖励之间的联系并非随机,而是随机影响与我们的品质和行动一样重要。
在情感层面上,许多人抵制随机影响重要性的观点,即使他们在智力层面上理解这一点。如果人们低估了机会在巨头职业生涯中的作用,那么他们是否也在贬低其在最不成功的人生活中的作用?在 20 世纪 60 年代,这个问题激发了社会心理学家梅尔文·勒纳调查社会对穷人的负面态度。¹⁴ 勒纳意识到,“如果人们相信他们所做的事情与所获得的奖励之间存在随机联系,那么很少有人会参与长期活动,”¹⁵ 勒纳得出结论,“为了他们自己的精神健康,”人们高估了从成功中推断能力程度。¹⁶ 换句话说,我们倾向于认为电影明星比有抱负的电影明星更有才华,并认为世界上最富有的人也必须是世界上最聪明的。
我们可能认为我们不会根据人们的收入或外在的成功迹象来判断他们,但即使我们确信一个人的薪水完全是随机的,许多人也无法避免做出直观的判断,认为薪水与价值相关。梅尔文·勒纳通过安排受试者坐在一个小暗室里,面对一面单向镜来考察这个问题。¹⁷ 从他们的座位上,观察者可以看到一个小明亮的房间,里面有一张桌子和两把椅子。观察者被引导相信,两个工人,汤姆和比尔,将很快进入房间,一起工作十五分钟,解开乱序词。然后,观看窗口前的窗帘被关闭,勒纳告诉观察者他将保持窗帘关闭,因为如果他们能听到但不能看到工人,实验会进行得更好,这样他们就不会受到他们外表的影响。他还告诉他们,由于他的资金有限,他只能支付给其中一个工人,而这个工人将被随机选择。当勒纳离开房间时,一名助手打开了一个开关,开始播放录音带。观察者相信他们正在幕后听汤姆和比尔进入房间并开始工作。实际上,他们正在听汤姆和比尔阅读一个固定的剧本的录音,这个剧本被构建得使得,通过各种客观指标,他们每个人似乎在任务上同样熟练和成功。之后,观察者不知道这一点,被要求对汤姆和比尔在努力、创造力和成功方面的表现进行评分。当汤姆被选中接受报酬时,大约 90%的观察者认为他做出了更大的贡献。当比尔被选中时,大约 70%的观察者认为他更高。尽管汤姆和比尔的表现相当,而且观察者知道报酬是随机分配的,但观察者认为得到报酬的工人比那些免费工作的人要好。唉,正如所有那些为了成功而着装的人都知道的那样,我们很容易被别人赚到的钱所欺骗。
一系列相关研究从工人的自身角度出发,调查了相同的效果。¹⁸ 每个人都知道,那些拥有合适的社会和学术背景、优雅的头衔和薪酬的老板,有时会把自己的想法看得比下属的更重要。研究人员想知道,那些仅仅通过偶然机会赚更多钱的人,是否会表现出同样的行为?即使是未获报酬的“成功”,是否也会让人产生优越感?为了找出答案,研究人员让志愿者成对合作完成各种无意义的工作。例如,在一个任务中,一张黑白图像被短暂展示,受试者必须判断图像的顶部或底部包含的白的比例更大。在每项任务开始之前,随机选择一位受试者,让他比另一位受试者获得更多的报酬。当这个信息没有公开时,受试者之间合作得很和谐。但当他们知道各自能获得多少报酬时,高薪受试者对合作伙伴的输入表现出比低薪受试者更多的抵抗。即使是随机的薪酬差异,也会导致对技能差异的逆向推断,从而产生不平等的影响。这是个人和办公室动态中不可忽视的一个因素。
但这个问题的一面更接近 Lerner 工作的原始动机。Lerner 与一位同事一起询问,人们是否倾向于认为那些不成功或遭受苦难的人应该得到他们的命运。¹⁹ 在那项研究中,一组女大学生聚集在等候室里。几分钟过后,其中一位被选中并被带出去。这位学生,我将她称为受害者,实际上并不是测试对象,而是实验者事先放在房间里的。剩下的受试者被告知,他们将观察受害者完成一项学习任务,并且每当她做出错误反应时,她将受到电击。实验者调整了一些据说可以控制电击强度的旋钮,然后打开了视频监视器。受试者看着受害者进入相邻的房间,被绑在“电击装置”上,然后尝试学习成对的无意义音节。
在任务过程中,受害者因为回答错误而收到了几次显然痛苦的电击。她用痛苦的呼喊来表达她的痛苦和苦难。实际上,受害者是在表演,监视器上播放的是预先录制的带子。起初,正如预期的那样,大多数观察者报告说,他们同伴的不公正的苦难让他们极度不安。但随着实验的进行,他们对受害者的同情开始减弱。最终,观察者,无能为力帮助,开始贬低受害者。受害者遭受的痛苦越多,他们对她的看法就越低。正如勒纳所预测的那样,观察者需要从因果关系的角度来理解这种情况。为了确保没有其他动态真正在起作用,实验用其他组受试者重复进行,他们被告知受害者将因她的痛苦而得到很好的补偿。换句话说,这些受试者相信受害者受到了“公平”的对待,但其他方面却面临着相同的情景。那些观察者并没有发展出对受害者持负面看法的倾向。不幸的是,我们似乎无意识地对社会中处于底层的人持有偏见。
我们在生活中错过了随机性的影响,因为我们评估世界时,往往只看到我们期望看到的东西。实际上,我们通过成功程度来定义才能的程度,然后通过注意到相关性来加强我们对因果关系的感受。这就是为什么尽管一个极其成功的人和不太成功的人之间在能力上可能只有微小的差别,但他们通常在人们眼中的看法却有很大的不同。在《兼职警察》上映之前,如果你被年轻的酒吧招待布鲁斯·威利斯告知他希望成为一名电影明星,你不会想,“哇,我真的很幸运有机会一对一地与一个魅力四射的未来名人聊天,”而更可能想的是,“嗯,好吧,现在只要确保不要在苦艾酒上喝得过多。”然而,节目成为热门的那天,每个人都突然将布鲁斯·威利斯视为一个明星,一个拥有吸引观众心弦和想象力的特殊才能的人。
期望的力量在心理学家大卫·L·罗森汉多年前进行的一项大胆实验中得到了戏剧性的展示。²⁰在该研究中,八名“假病人”分别预约了不同医院的其中一家,然后在入院办公室抱怨他们听到了奇怪的声音。假病人是一个多样化的群体:三名心理学家、一名精神科医生、一名儿科医生、一名学生、一名画家和一名家庭主妇。除了声称单个症状、报告虚假姓名和职业外,他们所有人都以完全诚实的态度描述了自己的生活。他们对我国心理健康系统的时钟般运作充满信心,一些受试者后来报告说,他们担心自己的明显理智会被立即察觉,从而给自己带来极大的尴尬。他们不必担心。除了一个人外,其他人都被诊断为精神分裂症入院。剩下的患者被诊断为躁郁症精神病。
入院后,他们都停止了模拟任何异常症状,并报告说声音消失了。然后,如罗森汉之前所指示的,他们等待工作人员注意到他们实际上并不疯狂。没有一位工作人员注意到这一点。相反,医院工作人员通过疯狂这一视角来解释假病人的行为。当观察到一名患者正在写日记时,护理记录中注明“患者参与写作行为”,将写作视为精神疾病的迹象。当另一名患者在遭受看护人员的虐待时爆发,这种行为也被假设是患者病理的一部分。甚至在大食堂开门供午餐前到达也被视为疯狂的症状。其他患者对正式的医疗诊断不以为然,会经常用类似“你并不疯狂。你是一名记者……你正在检查医院。”这样的评论挑战假病人。然而,假病人的医生却写下这样的笔记:“这位 39 岁的白人男性……在亲密关系中表现出相当大的矛盾心理,这种矛盾心理始于儿童早期。与母亲的温暖关系在青春期冷却。与父亲的疏远关系被描述为非常强烈。”
好消息是,尽管假病人有可疑的写作习惯和提前吃午餐的习惯,但他们被认为对自己或他人没有危险,平均住院十九天后被释放。医院从未发现这种诡计,当后来被告知发生了什么时,否认这种情况是可能的。
如果容易受到期望的影响,那么利用期望也同样容易。这就是为什么好莱坞的奋斗者们努力让自己看起来并不在挣扎,为什么医生们穿着白大褂,把各种证书和学位挂在办公室墙上,为什么二手车销售员宁愿修复汽车外部的瑕疵,也不愿投入资金进行发动机维修,以及为什么教师们平均会给“优秀”学生提交的家庭作业比“弱”学生提交的相同作业更高的分数。²¹ 市场营销人员也知道这一点,并设计广告活动来创造并利用我们的期望。其中做得非常有效的一个领域是伏特加市场。根据美国政府定义,伏特加是一种“无特定性格、香气、味道或颜色”的中性烈酒。因此,大多数美国伏特加并非起源于那些像创造葡萄酒那样充满激情、穿着法兰绒衬衫的男性,而是起源于像农业化学品供应商阿彻丹尼尔斯米德兰这样的企业巨头。伏特加蒸馏者的工作不是培养一种赋予精细微妙风味的陈酿过程,而是接受这些供应商提供的 190 度工业废料,加水,并尽可能多地减少味道。然而,通过大规模的形象塑造活动,伏特加生产商已经成功地创造出了非常强烈的差异化期望。因此,人们相信这种按其定义无特定性格的酒,实际上各品牌之间差异很大。此外,他们愿意根据这些差异支付大量金钱。为了避免被认为是一个无味的粗人,我想指出有一种方法可以测试我的胡言乱语。你可以排列一系列伏特加和一系列伏特加专家,进行盲品测试。碰巧,《纽约时报》就是这样做的。²² 而且在没有标签的情况下,像 Grey Goose 和 Ketel One 这样的高级伏特加并没有表现得那么好。事实上,与常识相比,结果看起来是随机的。此外,在品尝的 21 种伏特加中,最便宜的小酒馆品牌 Smirnoff 名列榜首。如果我们所有的判断都能免受期望的影响,仅基于相关数据,我们对世界的评估将会完全不同。
几年前,《伦敦星期日泰晤士报》进行了一项实验。其编辑们提交了两部获得布克奖(世界上最具声望和影响力的当代小说奖)的开篇章节的打印手稿给二十家主要出版商和代理人。²³ 其中一部小说是 V. S. 纳伊帕尔的《在一个自由的国家》,他获得了诺贝尔文学奖;另一部是斯坦利·米德尔顿的《假日》。可以安全地假设,如果收件人知道他们在读什么,他们会对这些备受赞誉的小说大加赞赏。但提交的手稿被当作有抱负的作者的作品,没有出版商或代理人似乎认出它们。这些非常成功的作品表现如何?除了一个例外,所有回复都是拒绝。例外是一位伦敦文学代理人表示对米德尔顿小说的兴趣。这位代理人关于纳伊帕尔的书的评论是:“我们……认为它相当原创。然而,最终我恐怕我们并没有足够热情去进一步推进。”
作者斯蒂芬·金在担心公众不会像他那样快速地接受他的书籍时,无意中进行了类似的实验。他化名理查德·巴赫曼写了一系列小说。销售数据显示,即使没有名字,斯蒂芬·金也不是斯蒂芬·金。(在作者真实身份最终公之于众后,销量显著提升。)遗憾的是,金没有进行相反的实验:将那些挣扎中的作家未发表的优秀手稿用他的名字作为封面。但如果连斯蒂芬·金没有名字就不是斯蒂芬·金,那么我们其他人,当我们的创意作品受到低于国王般的待遇时,可能会从知道质量差异可能没有一些人让我们相信的那么大中找到安慰。
多年前在加州理工学院,我的办公室在一位名叫约翰·施瓦茨的物理学家的办公室附近。他得到的认可很少,在几乎单枪匹马地维持一个被贬低的理论——弦理论——十年中遭受了十年的嘲讽,弦理论预测空间比我们观察到的三维有更多维度。然后有一天,他和一位同事取得了技术突破,由于这里不需要我们关心的原因,额外的维度突然听起来更可接受。自从那时起,弦理论一直是物理学中最热门的东西。如今,约翰被认为是物理学界杰出的资深人士之一,但要是他让那些默默无闻的岁月影响了他,他将成为托马斯·爱迪生观察到的“许多生活中的失败者是那些没有意识到他们在放弃时离成功有多近的人”的例证。²⁴
我认识的另一位物理学家有一个故事,与约翰的故事惊人地相似。他碰巧是约翰在加州大学伯克利分校的博士导师。这位物理学家被认为是他们那一代最杰出的科学家之一,他在一个被称为 S 矩阵理论的研究领域是领导者。像约翰一样,他固执地坚持自己的理论,在其他人放弃之后,他仍然继续研究了几年的时间。但与约翰不同的是,他没有成功。正因为他的不成功,他在许多人眼中结束了自己的职业生涯,被认为是一个怪人。但在我看来,他和约翰都是杰出的物理学家,他们有勇气在没有立即突破的承诺下工作——对一个已经过时的理论进行研究。正如作者应该根据他们的写作而不是他们的书籍销量来评判一样,物理学家——以及所有努力实现目标的人——应该更多地根据他们的能力而不是他们的成功来评判。
将能力与成功联系起来的绳子既松又弹性。很容易看到成功书籍中的优点,或者看到未发表的稿件,便宜的伏特加,或者在任何领域挣扎的人们似乎有所欠缺。很容易相信那些起作用的想法是好的想法,那些成功的计划是精心设计的,而那些不起作用的想法和计划是构思不当的。而且很容易将最成功的人捧为英雄,对最不成功的人不屑一顾。但能力并不能保证成就,成就与能力也不成比例。因此,始终记住等式中的另一个术语——运气的作用是很重要的。
将任何领域的最成功的人视为超级英雄并不是什么悲剧。但当对专家或市场的判断而不是对自己的信念导致我们放弃,就像约翰·肯尼迪·图尔在出版商反复拒绝他的遗作《傻瓜联盟》的手稿后自杀一样,这就是一个悲剧。因此,当被诱惑根据一个人的成功程度来评判他时,我喜欢提醒自己,如果他们重新开始,斯蒂芬·金可能只是一个理查德·巴赫曼,V.S.奈保尔可能只是另一个挣扎的作家,而某个地方可能游荡着比尔·盖茨、布鲁斯·威利斯和罗杰·马里斯等人的同等人物,他们并不富有和著名,他们没有得到财富杂志赋予的正确突破产品或电视节目或年份。我所学到的最重要的是,要继续前进,因为最好的消息是,既然运气确实起着作用,成功的一个重要因素确实在我们自己的控制之下:击球次数,所尝试的机会次数,所抓住的机会次数。即使是一个倾向于失败的钱币有时也会落在成功的面上。或者,正如 IBM 先驱托马斯·沃森所说:“如果你想成功,加倍你的失败率。”
在这本书中,我试图介绍随机性的基本概念,说明它们如何应用于人类事务,并表达我的观点,即我们在对事件的解释、期望和决策中很大程度上忽视了随机过程的影响。仅仅认识到随机过程在我们生活中的普遍作用可能只是一个顿悟;然而,随机过程理论的真正力量在于,一旦我们理解了随机过程的本质,我们就可以改变我们感知周围事件的方式。
心理学家大卫·罗森汉写道:“一旦一个人被贴上异常的标签,他所有的其他行为和特征都会被那个标签所影响。”²⁵ 同样,这也适用于成名,以及许多其他成功的标签和失败的标签。我们根据人们的结果来判断他们和他们的倡议,并期望事件发生有好的、可理解的原因。但我们对必然性的清晰愿景往往只是错觉。我写这本书的信念是,面对不确定性,我们可以重新组织我们的思维方式。我们可以提高我们的决策技能,并驯服一些导致我们做出不良判断和选择的偏见。我们可以试图理解人们的品质或情境的品质,而不仅仅是他们所取得的结果,并且我们可以学会通过可能产生的潜在结果范围来判断决策,而不是通过实际发生的结果来判断。
我的母亲总是警告我不要认为自己能够预测或控制未来。她曾经讲述了一个让她坚信这一信念的事件。这件事涉及到她的妹妹,萨比娜,尽管自从她最后一次见到萨比娜已经过去六十五年了,她仍然经常提起她。萨比娜当时十七岁。我的母亲,就像年幼的兄弟姐妹有时崇拜他们的哥哥姐姐一样崇拜她,当时十五岁。纳粹入侵了波兰,我的父亲来自城镇的贫民区,加入了地下组织,正如我之前所说的,最终被送到了布痕瓦尔德集中营。当时还不认识他的母亲来自城镇的富裕地区,最终被送到了一个强制劳动营。在那里,她被分配了护士助理的工作,照顾患斑疹伤寒的病人。食物稀缺,死亡随时可能发生。为了帮助保护我的母亲免受随时存在的危险,萨比娜同意了一个计划。她有一个朋友是犹太警察的一员,这个群体通常被囚犯所厌恶,他们执行德国人的命令并帮助维持营地的秩序。萨比娜的朋友提出与她结婚——只是名义上的婚姻——这样萨比娜就可以获得他职位所提供的保护。萨比娜认为这些保护也会延伸到我的母亲身上,于是同意了。一段时间内,这个计划奏效了。然后发生了一些事情,纳粹对犹太警察产生了反感。他们将一些军官及其配偶送到了毒气室,包括萨比娜的丈夫和萨比娜本人。现在,我的母亲比和她在一起的时候多活了许多年,但萨比娜的去世仍然困扰着她。我的母亲担心当她去世后,将不再有任何迹象表明萨比娜曾经存在过。对她来说,这个故事表明制定计划是没有意义的。我并不认同。我相信如果我们有清醒的认识,制定计划是很重要的。但更重要的是,我的母亲的经历教会了我我们应该识别和珍惜我们所拥有的好运,并认识到那些有助于我们成功的随机事件。它也教会了我接受可能给我们带来悲伤的随机事件。最重要的是,它教会了我珍惜没有坏运气,没有可能让我们倒下的事件,没有疾病、战争、饥荒和事故,这些还没有或尚未降临到我们身上。


浙公网安备 33010602011771号