您的下一个-大型-语言模型可能最终并不大
您的下一个“大型”语言模型可能最终并不大
原文:
towardsdatascience.com/your-next-large-language-model-might-not-be-large-afterall-2/
引言
但我们很快发现,即使是这种蛮力方法也有其自身的缺陷。证据表明,我们的大多数前沿模型都严重欠训练,参数计数过高(Hoffmann 等人,2022)³,这表明我们可能最终还是把计算资源用在了错误的方向上。
人工智能巨头的隐藏缺陷
我们让有史以来最强大的 AI 以缓慢、笨拙、外语:英语进行思考。为了找到问题的解决方案,它们必须通过逐字逐句、一步一步的过程“大声推理”,同时向我们提供许多无关且管理低效的“标记”。
然后是业界的“越大越好”的既定实践。这导致了拥有数十亿参数和包含万亿标记的训练集的模型的发展。这些模型的大小本身意味着它们并不是真正在推理;它们只是最好的模仿者。它们不是为特定问题找到原创的、新颖的解决方案,而是利用它们在训练数据中之前展示过与当前问题相似的事实来得出解决方案。
最后,也许是最关键的是,这些模型局限于一种“一刀切”的思考方法。例如,在处理一个非常困难的问题时,模型不能选择在问题的特定困难区域上花费额外的处理时间。当然,如果模型在更困难的问题上花费更多时间,它会产生更多的 CoT 标记(Wei 等人,2022)⁴。但这并不一定复制人类的推理,人类的推理涉及没有具体口头对话的深思熟虑的阶段。
分层推理模型
介绍分层推理模型(HRMs)(Wang 等人,2025b)¹:它们不是笨拙的“大声思考”方法,而是在它们本地的潜在空间中无声且流畅地推理——一个充满数字的丰富、高维世界。这更接近我们自己的直觉,深层次的思考往往在我们用言语描述它们之前。
这个新架构的核心是美丽而简单且动态的:一个耐心的高级 H 模块,负责设定整体策略,而一个快速的低级 L 模块则负责执行设定的策略。这两个模块都作为简单的转换器块(Vaswani et al., 2017)²堆叠在一起。
HRM 是如何思考的:内部一瞥
它将“思考”的行为分解为一个动态的双速系统。为了理解它是如何解决像 30×30 迷宫这样的复杂问题,让我们从输入到答案的整个旅程进行回顾。

(来源:作者)
HRM 的整体架构
(注意:所有 H 模块和 L 模块在所有实例中共享它们各自的权重,并以循环的方式处理信息)
1. 设置:嵌入和初始化
-
展平和嵌入:正如其名所示,输入(例如,数独网格或迷宫)被展平成一个单维的补丁/标记流,然后输入到嵌入模型中,该模型将人类可解释的迷宫转换为机器可理解的嵌入向量。
-
初始化记忆:现在实例化了两个不同的模块:一个高级状态(z[H]),作为监督者,规定思考和推理的总体方向,以及一个低级状态(zL),负责在设定的方向上执行推理。
2. 核心引擎:真正的推理从这里开始
在其核心,HRM 是一个嵌套循环,通过它的一次遍历被称为“段”。每个段包含几个H和L模块周期。
-
步骤 A:设置计划
高级(H)模块首先建立一个高级计划。它的记忆状态(z[H])在固定数量的步骤中保持不变,并在第一次遍历时随机初始化。在我们的迷宫示例中,这个初始计划可能非常抽象/一般,例如“探索向下和向右移动的路径。”
-
步骤 B:执行计划
在高级模块的计划作为固定指南的情况下,低级(L)模块开始一系列循环计算。对于固定的 timesteps(T)数量,它迭代地更新自己的隐藏状态(z[L]),有三个输入需要处理:
-
上一步的自身工作(z[L_previous])。
-
高级模块的固定计划(z[H])。
-
原始问题(嵌入的迷宫)。
-
-
低级模块在保持总体策略的同时,探索众多路径,遇到死胡同,回溯并重复,直到得出结论,然后将结论与高级模块共享。
-
步骤 C:相应地调整计划
一旦 L 模块完成了其重复工作循环,其最终记忆状态(z[L_final]),代表其计算的结果,被输入到 H 模块进行细化。H 模块修改自己的计划,并为 L 模块在下一个迭代中制定新的策略。例如:“向下路径最终是死胡同。新的计划是现在探索向右的路径。”
-
步骤 D:重置并重复
L 模块从其“主管”那里接收这个更新的计划,用于其下一个循环的重复和密集工作。对于 H 模块来说,这个过程会持续进行下一个“N”个循环,每个循环由 L 模块的“T”个子循环组成。
3. “退出”按钮:决定何时停止
通过引擎(一个“段落”)的单次遍历可能不足以解决更微妙或更难的问题。这就是 HRM 最巧妙的功能所在:自适应计算时间(ACT) (Graves, 2016)⁶。
在每个完整的思维段落(N×T 循环)之后,模型生成一个试探性答案。然后,它被输入到一个简单的线性网络中,该网络决定:“我有足够的信心停止,还是应该再思考一下?”
-
如果模型确定其对答案有足够的信心,它停止并展示为最终解决方案。
-
如果不是,它决定“深思”。它使用 L 和 H 模块的最终记忆状态作为全新段落的初始化,继续思考过程。
ACT 的实现:
模型通过 Q 学习范式学习何时停止。
-
Q-Head:这是一个简单的线性层(Q-Head),它接受继续推理或停止的调用。它接受 H 模块在段落结束时的最终记忆状态,并输出两个分数:Q[halt]和 Q[continue]。
-
“停止”值(Q[halt]):这个分数代表模型现在应该停止的信心。在训练过程中,模型学习使这个分数预测立即的最终奖励。它训练以匹配的目标很简单:如果预测答案是正确的,则为1,如果错误,则为0。

(来源:作者)
G[halt]:停止推理过程的奖励
ŷ^m:模型对任务的预测答案(例如,迷宫的解决方案)
y:与模型预测的地面真实值(例如,实际的迷宫解决方案)
m:当前段落的迭代次数
- “继续”值(Q[continue]):这代表模型如果继续思考另一个段落而不是立即停止,将会收到的估计奖励。其目标分数是来自下一个段落的两个 Q 分数中的估计最大可能值,定义为:

(来源:作者)
G[continue]:继续推理的奖励
m:当前段落的迭代次数
Q[continue/halt]:Q-Head 预测的输出
-
双损失系统:在每个思维片段之后,模型的总损失由两个不同的目标组成:
-
任务损失:得到错误答案的标准损失(序列到序列交叉熵)。
-
Q-Learning 损失:做出不良停止决策的 ACT 损失(二元交叉熵)。
-

(来源:作者)
L^m[total]:整个模型的总损失
ŷ^m:模型对任务的预测答案(例如,迷宫的解决方案)
y:模型预测的真实值(例如,实际的迷宫解决方案)
Q^m:Q-Head 的输出预测,要么停止要么继续
G^m:Q-Head 的输出目标
- 这使得模型能够同时学习两个目标:如何在解决问题的同时学习识别何时已经解决问题。
实践检验:结果
数独和迷宫基准
在与几个最先进的推理模型进行基准测试时,HRM 在涉及数独谜题和 30×30 迷宫的复杂推理任务上表现显著更好。它们都需要广泛的逻辑推理、回溯能力和空间规划能力。如下所示,所有使用思维链提示的其他模型都未能产生任何有效的解决方案。这些发现验证了这样一个观点:让模型在一个更具代表性的潜在空间中进行推理,比通过 CoT 让它们自我对话要好。

(来源:改编自 Wang et al., 2025¹,图 1)
X 轴:模型在相应基准上的准确率
架构胜于规模:效率的范例
模型能够在保持极端的参数和数据效率的同时完成这样的壮举。它以 27 百万参数,在每个任务上从大约 1000 个数据点从头开始训练。它也不需要任何昂贵的在网页规模数据集上的预训练或脆弱的提示工程策略。这进一步巩固了模型可以内化通用模式,并且可以比标准基于 CoT 的推理方法更有效地推理的假设。
抽象推理和流体智能:ARC-AGI 挑战
抽象和推理语料库(ARC)(Chollet, 2019)⁵是流体智能的广泛接受的标准,要求模型在只有少量视觉示例的情况下推断模糊和抽象的规则。HRM,仅 27 百万参数,就优于大多数主流推理模型。尽管其规模较小,但在 ARC-AGI-1 上得分 40.3%,而那些规模更大、计算能力强大的模型,如 o3-mini 和 Claude 3.7,分别得到了 34.5%和 21.2%的次优分数。

(来源:改编自 Wang et al., 2025¹,图 1)
X 轴:模型在相应基准上的准确率
解锁真正的计算深度
在给定的更多计算资源下,vanilla transformer 架构的性能很快就会开始达到平台期,即仅仅增加更多层会导致复杂推理的回报递减。相比之下,HRM 的准确度几乎与额外的计算步骤线性增长。这为论文提供了直接证据,表明该模型的架构不是一个固定深度的系统。它具有利用额外计算资源来处理复杂任务的内禀能力,这是标准 Transformer 的底层结构所缺乏的。

(来源:改编自 Wang et al., 2025¹,图 2)
X 轴:Sudoku-Extreme Full 数据集上模型的准确度
智能效率:用更少的努力解决问题
自适应计算时间 (ACT) 机制允许模型根据问题难度动态分配其计算资源。配备 ACT 的 HRM 实现了与硬编码使用大量步骤的模型相同的顶级准确度,但平均使用的资源显著更少。它通过快速解决简单问题来节省计算资源,仅在必要时分配更多“思考时间”,展示了超越蛮力计算的智能效率。

(来源:改编自 Wang et al., 2025¹,图 5)
为了理解 ACT 机制的效率,必须一起分析这两张图。两张图上的 X 轴都代表计算预算:对于“固定 M”模型,它是必须执行的精确步骤数,而对于“ACT”模型,它是允许的最大步骤数 (M[max])。图 (a) 上的 Y 轴显示实际使用的平均步骤数,而图 (b) 上的 Y 轴显示最终的准确度。
“固定 M”模型的准确度(黑色线条,图 b)在预算为 8 时达到峰值,但这需要为每个问题精确使用 8 个步骤(黑色线条,图 a)。而“ACT”模型(蓝色线条,图 b)在最大预算为 8 时实现了几乎相同的峰值准确度。然而,图 (a) 显示,为了达到这一点,它平均只使用了大约 1.5 个步骤。结论是明确的:ACT 模型学会了以使用不到四分之一的计算资源完成相同的顶级性能,并在已经解决的问题上智能地提前停止。
如果您喜欢这类分解,我在这里分享更多见解、笔记和解释:
steadysurfdom.substack.com/
参考文献
[1] Wang, Guan, 等人. “[分层推理模型.]” arXiv 预印本 arXiv:2506.21734 (2025).
[2] Vaswani, Ashish, et al. “注意力即是所需。” 神经信息处理系统进展 30 (2017).
[3] Hoffmann, Jordan, et al. “训练计算最优的大型语言模型。” arXiv 预印本 arXiv:2203.15556 (2022).
[4] Wei, Jason, et al. “思维链式提示引发大型语言模型的推理。” 神经信息处理系统进展 35 (2022): 24824-24837.
[5] Chollet, François. “关于智能的度量。” arXiv 预印本 arXiv:1911.01547 (2019).
[6] Graves, Alex. “循环神经网络的自适应计算时间。” arXiv 预印本 arXiv:1603.08983 (2016).

浙公网安备 33010602011771号