每日决策比你想象的更嘈杂--这是人工智能如何帮助修复这一问题的

每日决策比你想象的更嘈杂——这是人工智能如何帮助修复这一问题的

towardsdatascience.com/everyday-decisions-are-noisier-than-you-think-heres-how-ai-can-help-fix-that/

我最近刚刚读完引人深思的书籍《噪声:人类判断的缺陷》——由诺贝尔经济学奖获得者、畅销书《思考,快与慢》的作者丹尼尔·卡尼曼(Daniel Kahneman)以及奥利维耶·西博尼(Olivier Sibony)和卡斯·R·桑斯坦(Cass Sunstein)教授合著。噪声突出了人类事务中持续存在的、但通常隐藏得很好的噪声的威胁——定义为特定领域的专家在执行同一任务时决策结果的变化性。这本书提供了许多引人入胜的故事,讲述了来自保险、医学、法医学和法律等领域的噪声的真实影响。

噪声与偏差区分开来,偏差是同一组专家在决策中的错误的大小和方向。关键的区别最好通过以下图表解释:

图 1。四个团队:判断中的偏差和噪声的插图。在这里,靶心代表正确或正确的答案。偏差发生在判断系统地偏离真相时,如在团队 A 和 B 中,射击点始终偏离一个方向。相比之下,噪声反映了不一致性:判断散布得不可预测,如在团队 A、C 和 D 中看到的那样。在这个例子中,团队 A 有大量的噪声和偏差。📖 来源:丹尼尔·卡尼曼、奥利维耶·西博尼和卡斯·R·桑斯坦,《噪声:人类判断的缺陷》(哈珀柯林斯出版社,2021 年)。图表由作者改编。

图表说明了人类判断中偏差噪声的区别。每个目标代表对同一问题的重复判断,靶心符号表示正确答案。偏差发生在判断系统地偏离真相时,如在团队 A 和 B 中,射击点始终偏离中心。相比之下,噪声反映了不一致性:判断散布得不可预测,如在团队 A、C 和 D 中看到的那样。在这个例子中,团队 A 有大量的噪声和偏差。

我们可以总结如下:

  • 团队 A:射击点都偏离中心(偏差),且没有紧密聚集(噪声)。这表明存在偏差和噪声

  • 团队 B:射击点紧密聚集,但系统性地偏离靶心。这表明存在微小的偏差

  • 团队 C:射击点分布散乱且不一致,没有明显的聚集。这是噪声,系统偏差较小。

  • 团队 D:也分布散乱,显示出噪声

虽然偏差将决策推向错误的方向,但噪声创造了破坏公平性和可靠性的变异性。

人工智能(AI)从业者现在可能会有一个“啊哈”的时刻,因为上面描述的偏差和噪声让人联想到 AI 中的偏差-方差权衡,在那里我们寻求解释数据的模型,但又不拟合噪声。这里的噪声与方差同义。

人类判断误差的两个主要组成部分可以通过所谓的“总体误差方程”来分解,使用均方误差(MSE)来汇总个别决策中的误差:

总体误差(MSE)= 偏差² + 噪声²

偏差是平均误差,而噪声是判断的标准差。通过解决其中的任何一个,都可以减少总体误差,因为两者都同等重要。偏差通常是更明显的组成部分——当一系列决策系统地偏向一个方向时,通常很容易察觉。相比之下,噪声更难检测,因为它隐藏在变异性中。想想我之前展示的目标:偏差是当所有箭头都偏离中心聚集时,而噪声是当箭头散布在各个方向上时。两者都会降低准确性,但以不同的方式。从误差方程中得到的实际启示是明确的:我们应该旨在减少偏差和噪声,而不是仅仅专注于更明显的偏差。减少噪声的好处是使任何潜在的偏差更容易被发现。

为了巩固我们对偏差和噪声的理解,以下是书中另一个有用的可视化。这些图表描绘了判断错误:x 轴显示误差的大小(判断与真相之间的差异),y 轴显示其概率。在左边的图表中,噪声减少而偏差保持不变:分布变窄,但其平均值仍然偏离零。在右边的图表中,偏差减少:整个分布向零移动,而其宽度(噪声)保持不变。

图片

图 2: 减少噪声可以缩小判断错误的范围;减少偏差可以使平均值更接近零。📖来源:丹尼尔·卡尼曼、奥利弗·西博尼和卡斯·R·桑斯坦,《噪声:人类判断的缺陷》(HarperCollins,2021)。图表由作者改编。

噪声和偏见有助于解释为什么组织经常做出既不准确又不一致的决策,结果受到诸如情绪、时机或背景等因素的影响。法院判决是一个很好的例子:两位法官——甚至同一位法官在不同日子——可能会对类似的案件做出不同的决定。外部因素,如天气或当地体育比赛的结果,也可能影响判断。为了应对这种情况,像Bench IQ这样的初创公司正在使用人工智能来揭示司法决策中的噪声和偏见。他们的提案强调了一个工具,该工具将法官的模式映射出来,为律师提供一个更清晰的视角,了解判决可能如何展开。这个工具旨在解决《噪声》的核心问题:当随机性扭曲高风险决策时,测量和预测判断模式的工具可以帮助恢复一致性。

书中提出的另一个令人信服的例子来自保险行业。在《噪声:人类判断的缺陷》一书中,作者们展示了保险承保人和理赔人判断的巨大差异。一项噪声审计显示,报价往往取决于分配给谁——本质上是一个彩票。平均而言,两位承保人估计之间的差异是他们平均值的 55%,是调查过的 CEO 群体预期差异的五倍。对于同一案例,一位承保人可能将保费定为 9,500 美元,而另一位则定为 16,700 美元——这是一个惊人的差距。显然,噪声在这里起了作用,这仅仅是众多例子中的一个。

请问自己这个问题:当依赖专业判断时,你会愿意参加一个结果高度可变性的彩票,还是更愿意选择一个能够可靠地产生一致判断的系统?

到现在为止,应该很明显,噪声是一个非常真实的现象,它使组织在错误、低效和失去的机会上损失数十亿美元,这些都是由于无效的决策造成的。

为什么群体决策会更加嘈杂:信息级联和群体极化

群体智慧的原理表明,群体决策可以接近真理——当人们独立做出判断时,他们的错误会相互抵消。群体智慧的这一理念可以追溯到 1906 年的弗朗西斯·高尔顿。在一次牲畜交易会上,他让 800 人猜测一头牛的重量。单独来看,他们的估计差异很大。但平均起来,群体的判断几乎完美——只差一磅。这说明了聚合的潜力:独立的错误相互抵消,群体的判断趋向于真理。

但在现实中,心理和社会因素往往会使这一过程脱轨。在群体中,结果会受到谁先发言、谁坐在谁旁边或谁在关键时刻做出手势的影响。同一个群体,面对相同的问题,在不同日子可能会得出非常不同的结论。

在《噪声:人类判断的缺陷》一书中,作者以音乐流行度研究为例,说明了群体选择如何被社会影响扭曲。当人们看到一首特定的歌曲已经被下载了很多次,他们更有可能自己下载,从而形成一个自我强化的流行循环。引人注目的是,同一首歌在不同群体中可能会取得非常不同的成功水平,这主要取决于它是否偶然吸引了早期的势头。这项研究展示了社会影响如何塑造集体判断,通常以不可预测的方式放大噪声。

两个关键机制有助于解释基于群体的决策动态:

  • 信息级联 —— 就像第一块多米诺骨牌倒下后,后续的骨牌也会倒下一样,小的早期信号可能会使整个群体发生倾斜。人们复制已经说过的话,而不是表达自己真正的判断。社会压力加剧了这种效果——很少有人愿意显得愚蠢或持异见。

  • 群体极化 —— 讨论往往驱使群体走向更极端的位置。而不是平衡,讨论放大了倾向。卡尼曼及其同事用陪审团来阐述这一点:统计陪审团,成员独立判断,比讨论陪审团产生的噪声少得多,在讨论中,群体要么走向更大的宽容,要么走向更大的严厉,与中位数相比。

反讽的是,集体讨论可能会使群体比个人单独判断时更不准确、噪声更大。这里对管理的教训是:理想情况下,群体讨论应该以对噪声敏感的方式进行编排,使用旨在减少偏见和噪声的策略。

噪声决策的景观映射

《噪声:人类判断的缺陷》一书的关键教训是,所有的人类决策,无论是个人还是基于群体的,都是有噪声的。这可能会或可能不会让你感到惊讶,这取决于你个人有多少次受到专业判断差异的影响。但证据是压倒性的:医学是有噪声的,儿童监护裁决是有噪声的,预测是有噪声的,庇护决定是有噪声的,人事判断是有噪声的,保释听证会是有噪声的。噪声无处不在,但它很少被注意到——甚至更少被对抗。

为了帮助掌握噪声,尝试对其进行分类可能很有用。让我们从决策的分类学开始。两个重要的区分帮助我们组织噪声决策——重复性 vs 单一性评估性 vs 预测性。这些共同形成了一个简单的心理框架,用于指导:

  • 重复 vs 单次****决策:重复决策涉及对类似案例的重复判断——承保保险单、雇佣员工或诊断患者。在这里,噪声更容易被发现,因为决策者之间的不一致性模式会显现出来。相比之下,单次决策本质上是一次性的重复决策:授予专利、批准保释或决定庇护案件。每个决策都是独立的,因此噪声存在但很大程度上是看不见的——我们无法轻易比较其他决策者在相同案例中会做什么。

  • 评估性 vs 预测性决策:评估性决策是对质量或价值的判断——例如评估求职者、评估科学论文或评估绩效。另一方面,预测性决策则是对结果的预测——估计被告是否会再犯罪、患者对治疗的反应如何,或者初创公司是否会成功。这两种类型都受到噪声的影响,但机制不同:评估性噪声通常反映了标准或准则的不一致性,而预测性噪声则源于人们在想象和权衡未来时的变异性。

这些类别共同提供了一个理解人类判断中噪声的框架。噪声影响我们评估和预测的方式。认识到这些区别是设计旨在减少变异性并提高决策质量的系统的第一步。稍后,我将提出一些可以采取的具体措施来减少这两种判断中的噪声。

并非所有噪声都相同:噪声种类的指南

噪声审计,对于重复决策有时是可能的,可以揭示人类判断的不一致性到底有多严重。管理层可以通过让多个人评估同一案例来进行噪声审计。这有助于使响应中的变异性变得可见和可测量。结果有时可以非常揭示性,我之前总结的承保案例就是一个很好的例子。

要击中这个怪兽的心脏,《噪声:人类判断的缺陷》的作者区分了几种噪声类型。在最高层面上是系统噪声——一组专业人士在审视同一案例时的整体判断变异性。系统噪声可以进一步分为以下三个子组件:

  • 水平噪声——你与你的同伴有多少不同意见?个体间整体平均判断的差异——一些法官更严格,一些承保人更慷慨。

  • 模式噪声——你以何种一致的方式犯错?这是个人特有的倾向,会扭曲个人的决策——总是有点宽容,总是有点悲观,对某些类型的案例总是更严厉。模式噪声可以分为稳定的模式噪声,它反映了持久个人倾向,在时间和情境中持续存在,以及短暂的模式噪声,它源于情绪、疲劳或环境等暂时状态,这些状态可能会使决策从一项转向另一项。

  • 场合噪声——你多久会与自己意见不一致?同一人在不同时间因情绪、疲劳或环境等因素影响下的判断差异。场合噪声通常是整个系统噪声中较小的组成部分。换句话说,幸运的是,我们通常在时间上比在相同角色中的另一个人更一致。

每种类型噪声的相对影响因任务、领域和个人而异,通常水平噪声对系统噪声的贡献最大,其次是模式噪声,然后是场合噪声。这些噪声形式突出了解开变异性如何影响决策的复杂性,以及它们不同的影响解释了为什么组织在应用相同的规则处理相同信息时,往往达到不一致的结果。

通过识别影响决策的类型和噪声来源,我们可以设计更深思熟虑的策略来减少变异性,并提高我们判断的质量。

减少判断中噪声的策略

决策中的噪声永远无法完全消除,但可以通过精心设计的过程和习惯来减少——这就是卡尼曼及其同事所说的决策卫生。就像洗手一样,它可以防止我们看不到或无法直接追踪的问题,同时降低风险。

关键策略包括:

  • 进行噪声审计:承认噪声是可能的,并通过让多个决策者评估相同案例来评估判断变化的幅度。这使得噪声变得可见和可量化。例如,在下面的表格中,三位评估者对同一案例进行了评分,结果分别为 4/10、7/10 和 8/10,平均评分为 6.3/10,波动范围为 4 分。计算出的噪声指数突出了个人判断与群体之间的差异,使不一致性变得明显。

表 1——噪声审计示例:三位决策者独立评估同一案例。他们的判断差异很大(4/10、7/10、8/10),揭示了不是由偏见驱动的,而是由噪声引起的不一致性。📖来源:作者制表。

  • 使用决策观察者:房间里有一个中立参与者有助于引导对话,揭示偏见,并确保团队与决策原则保持一致。使用决策观察者最有助于减少决策中的偏见——偏见比噪声更明显,更容易检测。

  • 组建一个多元、技能娴熟的团队:专业知识的多样性可以减少相关错误,提供互补的视角,从而降低系统性盲点的风险。

  • 仔细序列信息:只呈现相关信息,并按照正确的顺序。过早地暴露无关细节可能会以不帮助的方式影响判断。例如,指纹分析师可能会受到案件细节或同事判断的影响。

  • 采用清单:正如《清单革命》中所倡导的,简单的清单在高风险、高压力的情况下可以非常有效,因为它确保了关键因素不会被忽视。例如,在医学领域,Apgar 评分最初是系统评估新生儿健康的指南,但后来被转化为清单:临床医生在出生后一分钟内检查预定义的维度——心率、呼吸、反射、肌肉紧张度和肤色。这样,复杂的决策被分解为子判断,减少了认知负荷,并提高了一致性。

  • 使用共享尺度:决策应基于一个共同的外部参考框架,而不是每个评判者依赖个人标准。这种方法已被证明可以减少在招聘和工作场所绩效评估等环境中的噪声。通过分别构建每个绩效维度并同时比较多个团队成员,应用标准化的排名尺度,以及使用强制锚点作为参考(例如,展示什么是好和伟大的案例研究),评估者不太可能引入个性化的偏见和变异性。

  • 利用群体智慧:独立判断的聚合通常比集体讨论更准确。弗朗西斯·高尔顿著名的“乡村集市”研究显示,许多独立估计的中位数甚至可以超越专家。

  • 创建“内部群体”:个人可以通过模拟多个视角来减少自己的噪声——在时间过去后再次做出相同的判断,或者通过故意反对自己的初步结论。这有效地从内部概率分布中抽取响应,类似于大型语言模型(LLMs)生成替代完成的方式。Ben Horowitz 的杰出著作《创业维艰》中提供了许多这种技术在行动中的例子。您可以看到 Horowitz 在面对高风险选择时形成内部群体来测试每一个角度——例如,权衡是否替换一个表现不佳的执行官,或者在危机中决定公司是否应该转变战略。他不是依赖单一的本能,而是系统地挑战自己的假设,从多个角度重新审视决策,直到最坚韧的前进道路变得清晰。

  • 锚定到外部基线:在做出预测性判断时,从统计角度思考,并首先确定一个适当的外部基线平均值。然后评估现有信息与结果的相关性有多强。如果相关性高,相应地调整基线;如果相关性弱或不存在,则坚持平均值作为最佳估计。例如,假设你正在尝试预测一个学生的 GPA。自然的基线是统计平均 GPA 3.2。如果学生在类似的课程中一直表现出色,那么这一记录与未来的表现高度相关,你可以合理地将你的预测向上调整到你的直观猜测,比如 3.8。但如果你主要的信息是某种弱预测性信息——比如学生参加辩论俱乐部——你应该抵制调整,并接近基线。这种方法不仅减少了噪声,还防止了常见的偏见,即忽略回归均值:极端表现(好或坏)随着时间的推移趋向平均值的统计趋势。从基线开始,只有在有充分证据支持时才进行移动,这是预测性判断中减少噪声的本质,如图表下面所示。

图片

调整直观预测以回归均值:从统计观点来看,预测将锚定在平均值(3.2–3.3),而直观观点则倾向于个人判断(3.8)。调整取决于信心,从无预测价值到完美预测。📖来源:丹尼尔·卡尼曼、奥利弗·西博尼和卡斯·R·桑斯坦,《噪声:人类判断的缺陷》(哈珀柯林斯出版社,2021 年)。图表由作者改编。

最后,但同样重要的是,我们还可以将算法作为决策过程中的助手:从简单的基于规则的模型高级人工智能系统,算法可以极大地减少判断中的噪声。在人类监督和验证的循环中使用,它们提供了一个一致的基线,同时为人类在最有价值的时候留下自由裁量的空间。

寻找断腿:利用人工智能进行判断

决策中最重要的一个问题是在何时信任算法,何时让人类判断占主导地位。一个有用的起点是断腿原则如果你知道模型不可能考虑到的决定性信息,你应该覆盖其预测。

例如,如果一个模型预测某人会像往常一样跑他们的早晨 5 公里,因为他们从未错过一天,但你知道他们得了流感,你不需要算法的预测——你已经知道跑步不会发生。

人工智能通常可以自己找到这些类型的“断腿”问题。通过分析数千个——甚至数百万个——案例的大量数据集,人工智能系统可以识别出人类可能错过的微妙、罕见但决定性的模式。

要理解什么是“断腿”,想象一个通勤者每天都会骑自行车上班,但有一天早上有严重的暴风雪,骑自行车的可能性骤降 — 这是一个数据和一个适当调整的人工智能仍然可以捕捉到的异常。

书籍《噪声:人类判断的缺陷》突出了塞恩希尔·穆拉伊纳坦及其同事如何在保释决定背景下探讨这一想法。他们在一个超过 758,000 个保释案件中训练了一个人工智能系统。法官可以访问相同的信息 — 犯罪记录、先前未出庭和其他案件细节 — 但人工智能还获得了结果:被告是否被释放、未出庭或被重新逮捕。人工智能产生了一个简单的数值评分来估计风险。关键的是,无论阈值设置在哪里,模型的表现都优于人类法官。人工智能在预测未出庭和重新逮捕方面显著更准确。

优势来自于人工智能检测复杂变量组合的能力。虽然人类法官可能会关注明显的线索,但模型可以同时权衡数千个微妙的关联。这在识别最高风险个体方面尤其强大,其中罕见但具有说明性的模式预示着危险的结果。换句话说,人工智能擅长捕捉罕见但决定性的信号 — 断腿 — 这些是人类要么忽视要么无法持续评估的。

“算法当然会犯错误。但如果人类法官犯的错误更多,我们应该信任谁?”来源:《噪声:人类判断的缺陷》(哈珀柯林斯出版社,2021 年)。

如果人工智能模型被精心设计和应用,可以减少歧视并提高准确性。正如我们所见,人工智能可以通过揭示混乱、复杂数据中的隐藏结构来增强人类的决策。因此,挑战变成了如何平衡这两者,并建立一个有效的人机团队:何时信任统计模式,何时介入人类判断以处理模型尚未看到的“断腿”。

图片

图 3:预测模型的光谱 — 从简单的规则到高级机器学习,展示了判断和预测中简单性与复杂性之间的权衡。📖 来源:丹尼尔·卡尼曼、奥利弗·西博尼和卡斯·R·桑斯坦,《噪声:人类判断的缺陷》(哈珀柯林斯出版社,2021 年)。图表由作者改编。

当大规模数据不可用于训练高级人工智能模型时,并非一切都已失去。我们可以简化:要么使用等权预测因子 — 其中每个因素或输入都被赋予相同的重要性,而不是学习到的权重(如多重回归) — 要么应用简单规则。这两种方法都可以显著优于人类判断。心理学家罗宾·道斯展示了这一反直觉的发现,并创造了不恰当的线性回归这一术语来描述等权方法。

例如,想象一下使用四个独立的预测因子来预测下季度的销售额:历史趋势外推(+8%)、市场情绪指数(+12%)、分析师共识(+6%)和经理直觉(+10%)。而不是信任任何单一的预测,不恰当的线性模型简单地平均它们,得出最终的预测为+9%。通过消除单个输入中的随机变化,这种方法通常优于专家判断,并说明了为什么平等加权可以出人意料地强大。

AI 从业者可以将 Dawes 的突破视为一种早期形式的容量控制:在数据量较少的情况下,给每个输入相同的权重可以防止模型过度拟合噪声。

规则可能更简单,并且可以大幅减少噪声。Kahneman、Sibony 和 Sunstein 强调了一组研究人员构建了一个简单的模型来评估等待审判的被告的飞行风险。仅使用两个预测因子——年龄和缺席法庭日期的数量——该模型产生的风险评分与人类评估相媲美。该公式如此简单,以至于可以手动计算。

结论和最后思考

我们探讨了 Kahneman、Sibony 和 Sunstein 所著的《噪声:人类判断的缺陷》一书中的主要教训。这本书突出了噪声就像房间里的大象——始终存在,但很少被承认或解决。与偏差不同,判断中的噪声是沉默的,但其影响是真实的:它耗费金钱,塑造决策,并影响生活。Kahneman 及其合著者有力地论证了在重要决策中系统地分析噪声及其后果的必要性。

图片

图 4:噪声是房间里的大象,可以极大地影响个人和群体的判断。📖 来源:作者自己的 GPT5。

在这篇文章中,我们考察了不同类型的决策——评估性决策与预测性决策、重复性决策与单一性决策——以及相应的噪声类型,包括系统噪声模式噪声水平噪声场合噪声。我们还通过噪声方程将噪声与偏差联系起来,强调了处理两者的必要性。虽然偏差通常更明显,但该书清楚地表明噪声同样具有破坏性,减少噪声的努力同样至关重要。

噪声不如偏差明显,并不是因为它看不见,而是因为它很少在没有系统比较的情况下自行显现。偏差是有系统的:经过几个案例后,你可以发现一个方向上的一致漂移,比如一个总是比平均水平更严厉的法官。相比之下,噪声表现为不一致性——一天宽容,第二天严厉。原则上,这种差异是可见的,但在实践中,每个单独的决策仍然感觉合理。除非将判断并列起来进行比较——Kahneman 及其同事称之为“噪声审计”——否则变异性沉默的成本就不会被注意到。

幸运的是,我们可以采取具体措施来改善我们的判断,并使我们的决策具有噪声意识:我们谈到了进行噪声审计的重要性,首先接受噪声作为一种可能的问题的可能性。基于此,根据具体情况,我们可以通过例如结构化决策协议、使用独立的多次评估或在使用时谨慎和负责任地使用人工智能等方式,采取更好的决策卫生措施——这些是具体的变化,有助于减少变异性并使我们的判断更加一致。

免责声明:本文中表达的观点和意见仅代表我个人的观点,不代表我的雇主或任何关联组织的观点。内容基于个人经验和反思,不应被视为专业或学术建议。

📚进一步学习

一些推荐的进一步阅读,以加深你对判断、预测和决策卫生中噪声的理解:

posted @ 2026-03-27 10:48  布客飞龙V  阅读(2)  评论(0)    收藏  举报