智慧-而非艰难-AI-的自我怀疑如何解锁峰值性能

智慧,而非艰难:AI 的自我怀疑如何解锁峰值性能

原文:towardsdatascience.com/smarter-not-harder-how-ais-self-doubt-unlocks-peak-performance/

简介

大型语言模型(LLMs)越来越能够解决复杂的推理任务,例如数学奥林匹克问题、科学问答和多步逻辑谜题[[3,8]]。但它们真的很好吗?是的,它们确实很好,但到目前为止,它们在测试时的计算成本非常高且效率低下[[5,6]]。为了应对这一挑战,Meta AI 的研究人员提出了一种名为“DeepConf”的解决方案,也称为“Deep Think with Confidence[1]

存在一个被称为多数投票自洽性的问题。

我相信你一定想知道这个问题在实际中是什么样子。想象一下一个有 100 名学生的教室。你给他们一个复杂的奥林匹克数学问题,并让他们有一个小时的时间去解决它。最后,你可以收集所有的答案并投票——得票最多的答案“获胜。”

(来源:作者)

这就是 LLMs 中多数投票自洽性问题的工作原理[2,3]。模型不仅仅探索一个解决方案,而是探索数百个推理路径(例如,512 个不同的逐步解决方案),然后选择最频繁的答案。

AIME 2025 数学基准测试中,Qwen3–8B(称为 pass@1)的单次遍历大约达到68%的准确率;这就像从一名学生那里得到一个答案。但如果你为每个问题生成512 个推理轨迹(称为 conf@512)并取多数答案,那么准确率会跃升至82%[1,4]

听起来很棒,对吧?但问题是,那额外的 511 个轨迹产生了近1 亿个额外的标记,而且更多的轨迹并不总是有帮助;当低质量的解决方案主导投票时,性能可能会保持不变,甚至有时还会下降[1,7,8]。换句话说,如果学生们在随机猜测,那么班级投票并不能反映教室里最好的思考者[1]


研究者们对此采取了什么措施:早期修复

研究者们试图通过观察模型的内部不确定性信号来解决这一问题。现在,那内部的不确定性是什么?就像在一段时间后(比如每 5 分钟)观察每个学生是否在做正确的初步步骤。模型观察每个标记的概率分布,并在特定时间计算其置信度或熵。如果模型对特定标记的预测有很高的置信度或很低的熵(高峰值的低分散),那么模型对这个特定标记的预测很确定,反之亦然[1,11]

通过在整个推理轨迹中添加这些标记级预测统计,我们可以估计解决方案的真正“可信度”。我们还可以在多数投票之前过滤掉低置信度轨迹——就像忽略那些明显猜测的学生的答案一样。减少错误投票,增强结果[1]

图片

(来源:作者)

然而,这些方法仍然是全局性的,并没有完全解决效率问题[1,6,13]

让我们在这里谈谈一些数学问题,比如标记熵、标记置信度和轨迹置信度是如何工作的[1,11]

标记熵:

图片

(来源:作者)

让我们分解一下这个熵的概念。logPᵢ(j)项说明了标记预测的惊喜程度,即第 i 个位置上标记的概率。当概率为 1(模型非常确定,惊喜为 0。没有戏剧性,没有不确定性)时,这表明模型对标记预测非常确定。然后我们取所有标记熵的平均值来定义每一步或标记预测中的熵[1]

标记置信度:

图片

(来源:作者)

标记置信度感知每个标记预测的猜测有多尖锐(反惊喜计)[1]

平均轨迹置信度:

图片

(来源:作者)

当我们在每个标记上计算置信度时,这些置信度分数的平均值给出了轨迹的置信度[1]


自信感知测试时间缩放:DeepConf

DeepConf 将这一想法进一步发展,而不是简单地投票数百个解决方案[2,3,12]。它观察模型在生成过程中和生成后的内部置信度信号。它动态地过滤掉低质量的推理轨迹,无论是在实时(在线模式)还是在所有解决方案生成后(离线模式)。它只保留最可信的推理方式,并减少浪费的计算[1,6]

结果如何?在 AIME 2025 上,DeepConf@512 与 GPT-OSS-120B 达到了令人震惊的 99.9%准确率。与简单的多数投票相比,它提高了 97.0%,而单次尝试(pass@1)仅达到 91.8%。同时,DeepConf 将标记生成量减少了高达 84.7%,与蛮力并行思维相比[1,6,7]

直观感清晰后,是时候看看这些置信度指标实际上是如何在幕后工作的了。

组自信:

图片

(来源:作者)

Cₜ 仍然是我们的标记级置信度。将组置信度(C_Gᵢ)视为对确定性的放大检查,其中 |Gᵢ| 是具有重叠窗口的前置标记数量(例如 1024 或 2048 个标记)。这为我们提供了一个确定性的局部快照[1]

底部 10% 组置信度:

(来源:作者)

当我们按组置信度分数排序并聚焦于底部 10% 时,我们基本上是在照亮推理链中最薄弱的环节。如果这些步骤看起来不稳定,我们可以将它们丢弃以节省计算[1]

尾部置信度:

(来源:作者)

尾部置信度很简单;我们只需取最后固定数量的标记,例如 2048,然后找到模型在最后几步(检查最后一步)的置信度,这是预测正确结论的关键步骤[1]

我们可以使用 DeepConf 在两种模式下使用:离线和在线[1]


离线思考与置信度

当你离线时,你不再一次又一次地调用模型或获取额外数据。相反,你只剩下已经生成的迹。

挑战是从它们中挤出最可靠的答案。

在离线模式下,我们可以对结果迹进行普通投票(当有更多噪声结果时可能会中断)或置信度加权的多数投票,其中我们取迹的平均置信度值,并简单地取置信度分数与该解决方案出现的乘积[1,2]

置信度过滤和投票:在投票之前,丢弃最弱的迹。首先按置信度过滤迹(取迹的前 n%)然后进行普通投票或加权置信度投票[1,9,10]

你可以选择任何适合你的置信度指标,如平均置信度、组置信度或尾部置信度[1,10,11]

算法 1 用于离线思考(来源:Deep Think with Confidence[1])

逐步解释:

输入:

提示 P: 你想要回答的问题或输入。

迹的数量 N: 你将生成多少推理路径。

过滤阈值 𝜂: 过滤顶部迹的百分比。

置信度测量 C(t): 通过任何你想要的方法计算迹的置信度分数[1]

初始化:

创建一个空集 T。

创建一个空的置信度集 C[1]

生成迹:

对于从 1 到 N 的每个迭代: 你可以为提示 P 生成一个迹 tᵢ。

计算置信度 分数 Cᵢ = C(tᵢ)。

将(tᵢ, Cᵢ)对存储在 T 和 C[1]中**。

过滤高置信度跟踪

从所有 N 跟踪中,根据它们的置信度分数选择前η%。

这移除了噪声或低质量的跟踪,只保留强置信度答案[1]

投票

我们可以计算每个可能的答案 a 的投票分数 V(a)。

这可以是简单的计数或加权投票[1]

选择最终答案

选择得票数最高的答案[1]

图片

(来源:作者)

图片

置信度测量和离线自信思考(来源:Deep Think with Confidence[1])


在线自信思考

算法在动态生成跟踪的同时,在有足够证据时测量置信度[1,5,14,15]

算法

图片

算法 2 用于在线思考(来源:Deep Think with Confidence[1])

逐步解释

1. 输入

提示 P:再次回答的问题。

跟踪预算 B:这是你想要生成的最大跟踪数。

初始跟踪 Nᵢₙᵢₜ:这是一个用于预热的起始跟踪池。

过滤阈值η:保留多少高置信度跟踪。

共识阈值τ:它给出一个百分比,表示当你对多数答案有信心时可以停止[1]

2. 离线预热

在线生成之前

使用 Nᵢₙᵢₜ跟踪运行算法 1。

计算置信度阈值 s

从初始跟踪中取 100, η百分位数的置信度分数。

这定义了标记/组需要达到的最小置信度才能被考虑。

使用初始跟踪初始化跟踪集 T,并计算所有答案的初始投票值 V(a)[1]

图片

(来源:作者)

确定初始多数答案â[1]

3. 在线生成循环

当两个条件保持时:

当前多数答案还不够自信:

图片

(来源:作者)

你还没有超过跟踪预算|T|<B

→ 继续生成新的跟踪[1]

4. 逐步生成跟踪

在生成跟踪 t 时:逐个生成 token。

在每个 token iii 之后,计算该 token/组的组置信度 C_Gᵢ。

如果 C_Gᵢ<s:停止生成跟踪(置信度低)。

否则:将 token iii 添加到跟踪 t[1]

5. 更新

将完成的跟踪 ttt 添加到跟踪集 T。

计算跟踪置信度 Cₜ​。

更新所有答案的投票计数 V(a)。

更新多数答案 â[1].

6. 终止

当以下任一条件满足时停止:

多数答案 â达到阈值 τ 以上的共识。

或者达到迹预算 B。

返回最终的多数答案 â[1].

DeepConf 在在线生成期间(来源:Deep Think with Confidence[1])

我认为这个算法是早期停止的艺术,可以节省大量的计算和资源[1,5,6,7,13,14].


结论

那么,你认为呢?这个故事的意义是什么?即使在人工智能课堂中,最聪明的“学生”有时也需要一点自我怀疑才能发光。DeepConf 展示了自我怀疑有多么强大。我们可以通过选择更智能、基于置信度的方法来节省数百万次的计算,而不是通过蛮力。这就像将混乱的数学竞赛转变为一个冷静的专家问题解决团队。

随着人工智能不断学习自信地思考,我们正朝着这样一个未来迈进:模型不仅更聪明,而且更节俭,计算量更少,错误更少,每个标记提供的脑力更多。谁知道呢?也许有一天,你最喜欢的模型将成为你最节俭、最自知的伙伴。在此之前,让我们继续更聪明地思考,而不是更努力。


参考文献

[1] Dayananda, A., Sivasubramanian, S., & Bartlett, P. (2024). Deep Think with Confidence: 基于置信度的测试时扩展以实现更好的对齐。arXiv 预印本 arXiv:2508.15260. 获取自 https://arxiv.org/pdf/2508.15260

[2] Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). 自洽性改进语言模型中的思维链推理。arXiv 预印本 arXiv:2203.11171

[3] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., Zhou, D., & others. (2022). 思维链提示在大型语言模型中引发推理。在神经信息处理系统高级研究 (Vol. 35, pp. 24824–24837).

[4] Art of Problem Solving. (2025a). 2025 AIME I. https://artofproblemsolving.com/wiki/index.php/2025_AIME_I 访问时间:2025.

[5] OpenAI. (2024). OpenAI o1 系统卡。arXiv 预印本 arXiv:2412.16720.

[6] Snell, C., Lee, J., Xu, K., & Kumar, A. (2024). 优化 LLM 测试时计算扩展可能比扩展模型参数更有效。arXiv 预印本 arXiv:2408.03314

[7] 布朗,Juravsky, J.,Ehrlich, R.,克拉克,R.,Le, Q. V.,Ré, C.,& Mirhoseini, A.(2024)。大型语言猴子:通过重复采样扩展推理计算。arXiv 预印本 arXiv:2407.21787

[8] 陈磊,戴维斯,J. Q.,汉宁,B.,贝利斯,P.,斯托伊卡,I.,扎哈里亚,M.,& 周杰(2024a)。是否需要更多的 LLM 调用?复合推理系统扩展定律。https://arxiv.org/abs/2403.02419

[9] 阿加瓦尔,P.,马达安,A.,杨,Y.,等(2023)。一步一步采样:LLMs 的高效推理和编码的自适应一致性。arXiv 预印本 arXiv:2305.11860

[10]Geng, J., Cai, F., 王宇,Koeppl, H., Nakov, P., & Gurevych, I.(2024)。大型语言模型中置信度估计和校准的综述。在 2024 年北美计算语言学协会人类语言技术会议论文集(第 1 卷:长篇论文),第 6577–6595 页。

[11] Fadeeva, E.,Rubashevskii, A.,Shelmanov, A.,Petrakov, S.,李,H.,Mubarak, H.,…… & Panov, M.(2024)。通过标记级不确定性量化对大型语言模型输出进行事实核查。arXiv 预印本 arXiv:2403.04696

[12] Farquhar, S., Kossen, J., Kuhn, L., & Gal, Y.(2024)。使用语义熵检测大型语言模型中的幻觉。自然,第 630 卷(8017 期),第 625–630 页。

[13] 李,Y.,袁,P.,冯,S.,潘,B.,王,X.,孙,B.,…… & 李,K.(2024)。逃离高昂的成本:多步推理的早期停止自洽性。arXiv 预印本 arXiv:2401.10480

[14] 汉志,李志,王宇,郭超,宋瑞,何杰,…… & 陈伟(2024)。自适应推理时间计算:LLMs 可以预测它们是否可以做得更好,甚至在中代。arXiv 预印本 arXiv:2410.02725

[15]傅毅,陈杰,庄宇,傅子,斯托伊卡,I.,& 张浩(2025)。无需自我怀疑的推理:通过确定性探测提高思维链的效率。在 2025 年 ICLR 工作坊:野外基础模型。


posted @ 2026-03-29 09:49  布客飞龙III  阅读(51)  评论(0)    收藏  举报