Fork me on GitHub

Test Time Scaling (TTS)

image


1️⃣ 什么是 Test Time Scaling?

Test Time Scaling (TTS) 指的是:

在不改变模型参数的前提下,
通过增加推理时的计算量,提高模型输出质量。

它的本质是:

Train-time scaling = 增大模型参数/数据/训练步数
Test-time scaling  = 增大推理阶段的计算预算

换句话说:

训练时你提升“模型容量”,
推理时你提升“思考预算”。


2️⃣ 为什么 Test Time Scaling 有用?

Transformer 本质是:

\( P(y|x) = \prod P(y_t | x, y_{<t}) \)

但在一次 greedy decoding 时:

  • 每一步只采样一次
  • 不会回头修正
  • 不会多路径搜索

这其实是一个 近似推理过程

如果我们允许:

  • 多次采样
  • 多路径生成
  • 自我反思
  • 重排序
  • 投票

就等于让模型“多想几步”。

这就是 TTS。


3️⃣ 最经典的 TTS 技术

我们用真实模型举例。


① Self-Consistency(多样本投票)

出自 Google 在
Google Research 的论文(Chain-of-Thought 系列)

做法:

  1. 对同一个问题采样 N 次
  2. 每次生成完整 reasoning path
  3. 对最终答案投票

举例

问:

17×23 = ?

模型一次可能算错。

但如果采样 20 次:

  • 15 次得到 391
  • 5 次得到 361

投票后选 391。

效果:

  • GSM8K 数学准确率显著提升
  • 不改模型参数

代价:

  • 推理成本 × N

② Tree-of-Thought(搜索)

来自
Princeton University

Google DeepMind

核心思想:

把推理过程当成搜索树

步骤:

  1. 生成多个候选“思考分支”
  2. 评估每个分支
  3. 保留 top-k
  4. 继续展开

本质类似:

  • Beam Search
  • MCTS

优点:

  • 复杂推理能力大幅提升

缺点:

  • 成本极高(指数级增长)

③ ReAct + Self-Refine

典型应用在
OpenAI 的 GPT-4 风格系统中。

流程:

  1. 生成初始答案
  2. 让模型自评
  3. 修改
  4. 再输出

相当于:

forward → critic → revise → output

这是一种“单模型多步推理”。


④ Best-of-N Sampling

很多闭源模型内部使用:

例如:

  • 生成 16 个答案
  • 用 reward model 评分
  • 选最高分

这叫:

inference-time reranking

在 RLHF 模型中非常常见。


4️⃣ 为什么 TTS 在大模型中特别有效?

关键原因:

1️⃣ 模型内部已经具备多解能力

大模型不是 deterministic solver。

它内部是:

\( P(y|x) \)

分布里包含:

  • 正确 reasoning path
  • 错误 reasoning path

一次采样可能抽错。

多采样 → 更接近真实分布峰值。


2️⃣ 大模型“容量充足”

例如:

OpenAI 的
GPT-4

它的能力并不是受“知识不足”限制,

而是受“单次解码预算”限制。

给它更多 token 预算:

  • 会出现更长的 chain-of-thought
  • 会进行错误修正
  • 会反思

5️⃣ 数学直觉

假设:

  • 单次回答正确率 = 70%
  • 错误独立

那么:

多次投票正确率:

\( P_{vote} = \sum_{k>\frac{N}{2}} \binom{N}{k} p^k (1-p)^{N-k} \)

当 N=5,p=0.7:

正确率 ≈ 83%

当 N=10:

≈ 90%+

这就是 Test-Time Scaling 提升的来源。


6️⃣ 成本对比

假设:

  • 训练 1B token 成本 = X
  • 推理 1 次成本 = y

你可以:

  • 训练更大模型(成本极高)
  • 或者对现有模型多推理几次(成本线性增加)

在实际部署中:

Test Time Scaling 是比继续训练更便宜的能力提升方式。


7️⃣ 工程现实中的 TTS

工业系统中常见:

方法 是否常用 成本
temperature 多采样
best-of-n
beam search 有限
tree search 研究用
self-refine 越来越多

8️⃣ 一个直观类比

训练 Scaling Law 是:

提高大脑容量

Test Time Scaling 是:

让同一个大脑多想几次

你没有变聪明,

但你更认真了。


9️⃣ 一个关键趋势

最新研究表明:

在强模型上,Test-Time Scaling 的收益有时超过参数 Scaling。

这也是为什么很多模型:

  • 不再疯狂增大参数
  • 而是优化推理阶段

🔟 总结一句话

Test Time Scaling 是:

用推理时的额外计算,换取更高输出质量。

本质是:

在 inference 阶段做搜索、投票、反思、重排序。


posted @ 2026-02-27 15:41  stardsd  阅读(87)  评论(0)    收藏  举报