Test Time Scaling (TTS)

1️⃣ 什么是 Test Time Scaling?
Test Time Scaling (TTS) 指的是:
在不改变模型参数的前提下,
通过增加推理时的计算量,提高模型输出质量。
它的本质是:
Train-time scaling = 增大模型参数/数据/训练步数
Test-time scaling = 增大推理阶段的计算预算
换句话说:
训练时你提升“模型容量”,
推理时你提升“思考预算”。
2️⃣ 为什么 Test Time Scaling 有用?
Transformer 本质是:
\( P(y|x) = \prod P(y_t | x, y_{<t}) \)
但在一次 greedy decoding 时:
- 每一步只采样一次
- 不会回头修正
- 不会多路径搜索
这其实是一个 近似推理过程。
如果我们允许:
- 多次采样
- 多路径生成
- 自我反思
- 重排序
- 投票
就等于让模型“多想几步”。
这就是 TTS。
3️⃣ 最经典的 TTS 技术
我们用真实模型举例。
① Self-Consistency(多样本投票)
出自 Google 在
Google Research 的论文(Chain-of-Thought 系列)
做法:
- 对同一个问题采样 N 次
- 每次生成完整 reasoning path
- 对最终答案投票
举例
问:
17×23 = ?
模型一次可能算错。
但如果采样 20 次:
- 15 次得到 391
- 5 次得到 361
投票后选 391。
效果:
- GSM8K 数学准确率显著提升
- 不改模型参数
代价:
- 推理成本 × N
② Tree-of-Thought(搜索)
来自
Princeton University
和
Google DeepMind
核心思想:
把推理过程当成搜索树
步骤:
- 生成多个候选“思考分支”
- 评估每个分支
- 保留 top-k
- 继续展开
本质类似:
- Beam Search
- MCTS
优点:
- 复杂推理能力大幅提升
缺点:
- 成本极高(指数级增长)
③ ReAct + Self-Refine
典型应用在
OpenAI 的 GPT-4 风格系统中。
流程:
- 生成初始答案
- 让模型自评
- 修改
- 再输出
相当于:
forward → critic → revise → output
这是一种“单模型多步推理”。
④ Best-of-N Sampling
很多闭源模型内部使用:
例如:
- 生成 16 个答案
- 用 reward model 评分
- 选最高分
这叫:
inference-time reranking
在 RLHF 模型中非常常见。
4️⃣ 为什么 TTS 在大模型中特别有效?
关键原因:
1️⃣ 模型内部已经具备多解能力
大模型不是 deterministic solver。
它内部是:
\( P(y|x) \)
分布里包含:
- 正确 reasoning path
- 错误 reasoning path
一次采样可能抽错。
多采样 → 更接近真实分布峰值。
2️⃣ 大模型“容量充足”
例如:
OpenAI 的
GPT-4
它的能力并不是受“知识不足”限制,
而是受“单次解码预算”限制。
给它更多 token 预算:
- 会出现更长的 chain-of-thought
- 会进行错误修正
- 会反思
5️⃣ 数学直觉
假设:
- 单次回答正确率 = 70%
- 错误独立
那么:
多次投票正确率:
\( P_{vote} = \sum_{k>\frac{N}{2}} \binom{N}{k} p^k (1-p)^{N-k} \)
当 N=5,p=0.7:
正确率 ≈ 83%
当 N=10:
≈ 90%+
这就是 Test-Time Scaling 提升的来源。
6️⃣ 成本对比
假设:
- 训练 1B token 成本 = X
- 推理 1 次成本 = y
你可以:
- 训练更大模型(成本极高)
- 或者对现有模型多推理几次(成本线性增加)
在实际部署中:
Test Time Scaling 是比继续训练更便宜的能力提升方式。
7️⃣ 工程现实中的 TTS
工业系统中常见:
| 方法 | 是否常用 | 成本 |
|---|---|---|
| temperature 多采样 | ✅ | 低 |
| best-of-n | ✅ | 中 |
| beam search | 有限 | 中 |
| tree search | 研究用 | 高 |
| self-refine | 越来越多 | 中 |
8️⃣ 一个直观类比
训练 Scaling Law 是:
提高大脑容量
Test Time Scaling 是:
让同一个大脑多想几次
你没有变聪明,
但你更认真了。
9️⃣ 一个关键趋势
最新研究表明:
在强模型上,Test-Time Scaling 的收益有时超过参数 Scaling。
这也是为什么很多模型:
- 不再疯狂增大参数
- 而是优化推理阶段
🔟 总结一句话
Test Time Scaling 是:
用推理时的额外计算,换取更高输出质量。
本质是:
在 inference 阶段做搜索、投票、反思、重排序。
如果这篇文章帮助到了你,你可以请作者喝一杯咖啡

浙公网安备 33010602011771号