Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

论文日报 2026-03-29

精选论文

《Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models》

将推理时搜索内化到模型——多答案强化学习新范式

基本信息

字段	内容
论文标题	Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
arXiv ID	arXiv:2603.24844
发布日期	2026-03-25
作者	Isha Puri、Mehul Damani、Idan Shenfeld、Marzyeh Ghassemi、Jacob Andreas、Yoon Kim
机构	MIT CSAIL（麻省理工学院计算机科学与人工智能实验室）
项目主页	multi-answer-rl.github.io
代码仓库	github.com/ishapuri/multi_answer_rl

研究背景与动机

当前大语言模型（LLM）的标准后训练流程（RLHF / RLVR）存在一个根本性的隐患：它将模型对可能答案的隐式分布强行坍缩为单一主导模式（mode）。

具体来说，一个语言模型在接收问题时，其内部实际上编码了一个可能答案的分布，这一分布中包含多个合理的候选。然而无论是 RLHF 还是主流的 GRPO/RLVR 训练，都只奖励"生成一个正确答案"，导致模型不断向单一答案坍缩，丧失了探索多解的能力。

这在以下场景中造成严重问题：

医疗诊断：同一症状可能对应多种疾病（鉴别诊断）
模糊问答：问题本身存在多种合理解读
代码生成：同一需求有多种正确实现方式
不确定性建模：需要集合层面的校准（calibration）

传统解法是推理时多次采样（repeated sampling），但代价高昂：N 次独立采样意味着 N 倍的推理开销。

核心创新

本文提出 Multi-Answer RL（多答案强化学习），核心思路是：

将推理时的搜索过程内化到模型的单次生成过程中，使模型能在一次前向传播中直接生成多个高质量、多样化的候选答案。

方法核心设计：

多答案生成目标：将训练目标从"生成 1 个正确答案"改为"在单次生成中产出 K 个涵盖正确答案的多样化候选集合"，K ∈ {2, 3, 4, 5}。
RLVR-Multi：基于强化学习的多验证奖励变体。当且仅当模型生成的 K 个答案中包含正确答案时，给予奖励。同时设计了多样性惩罚项，防止模型退化为生成 K 个相同答案。
RLCR-Multi（带校准奖励）：在 RLVR-Multi 基础上增加校准奖励，要求模型为每个候选答案分配有意义的置信度分数，从而实现集合层面的概率校准。
共享推理前缀：模型学会生成一个共享的推理过程（CoT 前缀），然后在此基础上分支出 K 个不同答案，避免了 N 次独立采样中的冗余推理计算。

实验结果

实验在三个基准数据集上展开：DDXPlus（医学鉴别诊断）、HotPotQA-Modified（模糊多跳问答）、MBPP（Python 代码生成）。

代码生成（MBPP）——旗舰结果

方法	Top-1 准确率	Token 使用量
RLVR-Single（基线）	基准	基准
RLVR-Multi（本文）	+50% 以上	减少 50% 以上

用一半的 token 实现了超过 50% 的准确率提升，这是本文最显著的工程价值。

多样性（DDXPlus 医学诊断）

方法	相同 token 预算下的独特答案数量
RLVR-Single（30 次独立采样）	平均 4 个
RLVR-Multi（10 次生成 × 3 答案）	平均 8 个（2 倍）

计算效率

RLVR-Multi 生成与 RLVR-Single 等量候选所需的平均 token 仅为后者的 ~56%，即节省约 44% 的计算量。

可扩展性

K 从 2 扩展到 5，覆盖率（coverage）单调递增，训练保持稳定，方法具备良好的扩展性。

校准能力

RLCR-Multi 的置信度校准曲线接近对角线（理想校准），而单答案 RLVR 在所有置信度水平上均存在系统性过度自信。

研究意义与新颖想法

1. 重新定义 LLM 推理的目标

传统范式假设"一个问题对应一个最佳答案"，本文揭示这一假设在现实场景中是错误的，并提出了从"模式寻优"到"分布近似"的范式转变。

2. 内化搜索（Internalized Search）

将经典的"推理时搜索"（inference-time search，如 MCTS、beam search）内嵌进模型权重，使模型天然具备生成多元候选的能力。这与 OpenAI o1/o3 系列将推理过程内化的方向一脉相承，但切入角度更底层——不是内化推理链，而是内化答案分布采样。

3. 集合层面的对齐

现有 RLHF 对齐研究主要关注单次响应的质量，本文开辟了"集合层面对齐"的新方向：模型输出的答案集合需要在多样性、覆盖度、校准性上同时满足要求。

4. 对医疗 AI 的特殊价值

在医疗决策场景中，鉴别诊断本质上就是维持一个可能病症的置信分布。本文的 RLCR-Multi 能直接输出带校准置信度的候选诊断列表，符合临床实践需求，具有实际落地价值。

扩展阅读

本周 arXiv 其他值得关注的论文（2026-03-25 ~ 2026-03-27）：

S2D2 (arXiv:2603.25702) — 无需训练的自推测解码框架，用于扩散 LLM，SDAR 模型上实现 4.7× 加速
HIVE (arXiv:2603.25184) — 针对大型推理模型 RL 训练的提示选择框架，发现"学习边缘（Learning Edge）"现象，显著降低 rollout 计算开销
MoE-Sieve (arXiv:2603.24044) — 路由引导的 MoE 高效微调，仅微调前 25% 专家即可匹配全量 LoRA 性能，训练提速最多 50%
GlowQ (arXiv:2603.25385) — 量化 LLM 的组共享低秩近似，选择性版本吞吐量提升 37.4%，延迟降低 23.4%
TurboQuant (arXiv:2504.19874，Google Research+KAIST，ICLR 2026) — KV Cache 在线向量量化，内存减少 6×，H100 上加速 8×，3.5 bit 下零精度损失（本周社区热议）

posted @ 2026-04-09 01:41 SHICENT 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

SHICENT

永远不要停下前进的脚步

Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

论文日报 2026-03-29

精选论文