ReVal:首个基于贝尔曼更新的异策略价值函数 RL 方法用于大语言模型训练

论文日报 2026-03-30


今日精选

ReVal:首个基于贝尔曼更新的异策略价值函数 RL 方法用于大语言模型训练


基本信息

字段 内容
论文标题 Off-Policy Value-Based Reinforcement Learning for Large Language Models
arXiv ID arXiv:2603.23355
提交日期 2026 年 3 月 24 日
领域分类 cs.LG · cs.CL
作者 Peng-Yuan Wang, Ziniu Li, Tian Xu, Bohan Yang, Tian-Shuo Liu, ChenYang Wang, Xiong-Hui Chen, Yi-Chen Li, Tianyun Yang, Congliang Chen, Yang Yu(共 11 位)
相关公众号报道 江川轻寒(2026-03-26)—— 列为"今日 arXiv 最值得读"

一句话概括

ReVal 是首个将贝尔曼方程(Bellman Update)回放缓冲区(Replay Buffer)引入大语言模型后训练的 off-policy 价值函数强化学习方法,在数学推理基准上收敛更快、性能更优,为 LLM 训练效率瓶颈提供了全新解题路径。


研究背景

当前 LLM 强化学习后训练(RLHF / RLVR)几乎全部依赖 on-policy 算法(GRPO、PPO、REINFORCE 等),这类方法每次只使用一批新采样数据更新策略,然后立即丢弃——数据利用率极低。

在深度强化学习领域(机器人、游戏),off-policy 方法(SAC、TD3、DQN)通过引入价值函数(Value Function)和回放缓冲区(Replay Buffer),早已证明可以将历史轨迹反复复用,极大提升样本效率。但将这套范式迁移到 LLM 序列生成场景面临两大挑战:(1)动作空间是离散 token,状态空间是指数级的序列;(2)奖励信号仅在轨迹末端才可得(稀疏奖励)。

ReVal 首次系统性地解决了这两个挑战。


核心方法

ReVal(Replay-Enhanced Value Learning) 的两大核心设计:

1. 逐步一致性信号(Stepwise Consistency Signal)

  • 将 LLM 的生成过程建模为马尔可夫决策过程(MDP),以每个 token 为一步
  • 利用"前缀一致性"捕捉内部推理步骤的质量:若当前前缀能以更高概率生成正确最终答案,则该步骤质量更高
  • 这构成密集的逐步奖励,解决传统 LLM RL 的稀疏奖励问题

2. 轨迹级验证信号(Trajectory-Level Verification Signal)

  • 在完整轨迹末端使用结果验证器(ORM/规则验证器)给出 0/1 终端奖励
  • 与逐步信号结合,通过贝尔曼更新传播奖励至每个时间步

3. 回放缓冲区训练

  • 历史生成的轨迹被存入 replay buffer,后续训练迭代可反复复用
  • 与 off-policy TD 学习兼容,每条轨迹利用率大幅提升

$$Q(s_t, a_t) \leftarrow r_t + \gamma \max_{a'} Q(s_{t+1}, a')$$


实验结果

基准 GRPO(基线) ReVal 提升
AIME 2024 基线 +2.7% ↑ 2.7 pp
GPQA(跨域推理) 基线 +4.5% ↑ 4.5 pp
训练收敛速度 标准 更快 更少数据达到同等性能
  • 测试模型:DeepSeek-R1-Distill-1.5B(轻量级,便于对比)
  • 与 GRPO 相比,在相同计算预算下 ReVal 最终性能更优,收敛速度更快

为什么重要

1. 方法论突破:打开了 LLM 训练的新范式

LLM 后训练中,on-policy 方法的核心瓶颈是样本效率低——分布式训练中 rollout 生成往往是速度瓶颈,数据只用一次是巨大浪费。ReVal 证明了 off-policy 价值函数方法在 LLM 后训练中是切实可行的,为工业界大规模训练系统带来新的优化维度。

2. 与已有技术路线的互补性

ReVal 与以下技术天然兼容,联合使用有望带来更大收益:

  • 优先级回放(Prioritized Replay):优先复用高价值轨迹
  • N-step 回报估计:提升长程奖励传播质量
  • 多步推理链(Long CoT):长轨迹下样本复用价值更大

3. 引发连锁研究

off-policy LLM RL 此前虽有少数探索(如 BAPO、DPO 的 off-policy 变体),但 ReVal 首次提供了一套完整的基于价值函数的框架,预计将在后续数月内引发大量跟进研究。


一点思考

ReVal 当前在 1.5B 小模型上验证,自然引发的问题是:scale up 后效果是否保持?

猜测方向:随着模型规模增大、Long CoT 轨迹变长,off-policy 复用的边际收益理论上应当更大——因为每条轨迹的生成成本更高、信息密度更大。不过大规模训练中的训练稳定性(critic 网络的引入带来额外复杂度)和分布偏移(replay buffer 中老数据与当前策略的差异)是需要重点解决的问题。


论文链接


扩展阅读(本期候选论文)

以下论文同样值得关注,供参考:

# 论文 arXiv 亮点
1 PAPO: Stabilizing Rubric Integration Training via Decoupled Advantage Normalization 2603.26535 解耦 ORM+PRM 信号融合,OlympiadBench +5pp;直接改进 GRPO
2 RPS-Serve: Rocks, Pebbles and Sand — Modality-aware Scheduling for MLLM Inference 2603.26498 多模态推理调度,整体 TTFT 降低 54%,文本请求 TTFT 降低 78.5%
3 CALVO: Improve Serving Efficiency for LLM with Intense Network Demands 2603.21257 上交大+华为+TeleAI,KV Cache 加载解耦异步,SLO 达成率提升 61.67%
4 Slow-Fast Inference: Training-Free Inference Acceleration 2603.12038 无需训练,句子内注意力支撑稳定性,吞吐量提升 1.6×–14.4×
5 MoE-GRPO: Optimizing MoE via RL in Vision-Language Models 2603.24984 CVPR 2026 接收,将专家路由建模为 RL 顺序决策,优于 Top-K 路由

本期主题洞察

本周 arXiv LLM 训练方向热点:将深度 RL 经典范式迁移至 LLM 后训练

近两周 arXiv 呈现出明显趋势:研究者正在将深度强化学习领域积累了十余年的成熟技术(off-policy 学习、价值函数方法、过程奖励建模)系统性地引入 LLM 后训练流水线。ReVal(off-policy 价值函数)、PAPO(ORM+PRM 解耦)均是这一趋势的代表作。与此同时,推理系统层面(RPS-Serve、CALVO、Slow-Fast Inference)持续深化对长上下文多模态请求的系统级优化,形成"算法-系统"双轮驱动的研究格局。


posted @ 2026-04-09 01:43  SHICENT  阅读(5)  评论(0)    收藏  举报