Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
论文日报 2026-03-29
精选论文
《Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models》
将推理时搜索内化到模型——多答案强化学习新范式
基本信息
| 字段 | 内容 |
|---|---|
| 论文标题 | Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models |
| arXiv ID | arXiv:2603.24844 |
| 发布日期 | 2026-03-25 |
| 作者 | Isha Puri、Mehul Damani、Idan Shenfeld、Marzyeh Ghassemi、Jacob Andreas、Yoon Kim |
| 机构 | MIT CSAIL(麻省理工学院计算机科学与人工智能实验室) |
| 项目主页 | multi-answer-rl.github.io |
| 代码仓库 | github.com/ishapuri/multi_answer_rl |
研究背景与动机
当前大语言模型(LLM)的标准后训练流程(RLHF / RLVR)存在一个根本性的隐患:它将模型对可能答案的隐式分布强行坍缩为单一主导模式(mode)。
具体来说,一个语言模型在接收问题时,其内部实际上编码了一个可能答案的分布,这一分布中包含多个合理的候选。然而无论是 RLHF 还是主流的 GRPO/RLVR 训练,都只奖励"生成一个正确答案",导致模型不断向单一答案坍缩,丧失了探索多解的能力。
这在以下场景中造成严重问题:
- 医疗诊断:同一症状可能对应多种疾病(鉴别诊断)
- 模糊问答:问题本身存在多种合理解读
- 代码生成:同一需求有多种正确实现方式
- 不确定性建模:需要集合层面的校准(calibration)
传统解法是推理时多次采样(repeated sampling),但代价高昂:N 次独立采样意味着 N 倍的推理开销。
核心创新
本文提出 Multi-Answer RL(多答案强化学习),核心思路是:
将推理时的搜索过程内化到模型的单次生成过程中,使模型能在一次前向传播中直接生成多个高质量、多样化的候选答案。
方法核心设计:
-
多答案生成目标:将训练目标从"生成 1 个正确答案"改为"在单次生成中产出 K 个涵盖正确答案的多样化候选集合",K ∈ {2, 3, 4, 5}。
-
RLVR-Multi:基于强化学习的多验证奖励变体。当且仅当模型生成的 K 个答案中包含正确答案时,给予奖励。同时设计了多样性惩罚项,防止模型退化为生成 K 个相同答案。
-
RLCR-Multi(带校准奖励):在 RLVR-Multi 基础上增加校准奖励,要求模型为每个候选答案分配有意义的置信度分数,从而实现集合层面的概率校准。
-
共享推理前缀:模型学会生成一个共享的推理过程(CoT 前缀),然后在此基础上分支出 K 个不同答案,避免了 N 次独立采样中的冗余推理计算。
实验结果
实验在三个基准数据集上展开:DDXPlus(医学鉴别诊断)、HotPotQA-Modified(模糊多跳问答)、MBPP(Python 代码生成)。
代码生成(MBPP)——旗舰结果
| 方法 | Top-1 准确率 | Token 使用量 |
|---|---|---|
| RLVR-Single(基线) | 基准 | 基准 |
| RLVR-Multi(本文) | +50% 以上 | 减少 50% 以上 |
用一半的 token 实现了超过 50% 的准确率提升,这是本文最显著的工程价值。
多样性(DDXPlus 医学诊断)
| 方法 | 相同 token 预算下的独特答案数量 |
|---|---|
| RLVR-Single(30 次独立采样) | 平均 4 个 |
| RLVR-Multi(10 次生成 × 3 答案) | 平均 8 个(2 倍) |
计算效率
- RLVR-Multi 生成与 RLVR-Single 等量候选所需的平均 token 仅为后者的 ~56%,即节省约 44% 的计算量。
可扩展性
- K 从 2 扩展到 5,覆盖率(coverage)单调递增,训练保持稳定,方法具备良好的扩展性。
校准能力
- RLCR-Multi 的置信度校准曲线接近对角线(理想校准),而单答案 RLVR 在所有置信度水平上均存在系统性过度自信。
研究意义与新颖想法
1. 重新定义 LLM 推理的目标
传统范式假设"一个问题对应一个最佳答案",本文揭示这一假设在现实场景中是错误的,并提出了从"模式寻优"到"分布近似"的范式转变。
2. 内化搜索(Internalized Search)
将经典的"推理时搜索"(inference-time search,如 MCTS、beam search)内嵌进模型权重,使模型天然具备生成多元候选的能力。这与 OpenAI o1/o3 系列将推理过程内化的方向一脉相承,但切入角度更底层——不是内化推理链,而是内化答案分布采样。
3. 集合层面的对齐
现有 RLHF 对齐研究主要关注单次响应的质量,本文开辟了"集合层面对齐"的新方向:模型输出的答案集合需要在多样性、覆盖度、校准性上同时满足要求。
4. 对医疗 AI 的特殊价值
在医疗决策场景中,鉴别诊断本质上就是维持一个可能病症的置信分布。本文的 RLCR-Multi 能直接输出带校准置信度的候选诊断列表,符合临床实践需求,具有实际落地价值。
扩展阅读
本周 arXiv 其他值得关注的论文(2026-03-25 ~ 2026-03-27):
- S2D2 (arXiv:2603.25702) — 无需训练的自推测解码框架,用于扩散 LLM,SDAR 模型上实现 4.7× 加速
- HIVE (arXiv:2603.25184) — 针对大型推理模型 RL 训练的提示选择框架,发现"学习边缘(Learning Edge)"现象,显著降低 rollout 计算开销
- MoE-Sieve (arXiv:2603.24044) — 路由引导的 MoE 高效微调,仅微调前 25% 专家即可匹配全量 LoRA 性能,训练提速最多 50%
- GlowQ (arXiv:2603.25385) — 量化 LLM 的组共享低秩近似,选择性版本吞吐量提升 37.4%,延迟降低 23.4%
- TurboQuant (arXiv:2504.19874,Google Research+KAIST,ICLR 2026) — KV Cache 在线向量量化,内存减少 6×,H100 上加速 8×,3.5 bit 下零精度损失(本周社区热议)

浙公网安备 33010602011771号