ReVal：首个基于贝尔曼更新的异策略价值函数 RL 方法用于大语言模型训练

论文日报 2026-03-30

今日精选

ReVal：首个基于贝尔曼更新的异策略价值函数 RL 方法用于大语言模型训练

基本信息

字段	内容
论文标题	Off-Policy Value-Based Reinforcement Learning for Large Language Models
arXiv ID	arXiv:2603.23355
提交日期	2026 年 3 月 24 日
领域分类	cs.LG · cs.CL
作者	Peng-Yuan Wang, Ziniu Li, Tian Xu, Bohan Yang, Tian-Shuo Liu, ChenYang Wang, Xiong-Hui Chen, Yi-Chen Li, Tianyun Yang, Congliang Chen, Yang Yu（共 11 位）
相关公众号报道	江川轻寒（2026-03-26）—— 列为"今日 arXiv 最值得读"

一句话概括

ReVal 是首个将贝尔曼方程（Bellman Update）与回放缓冲区（Replay Buffer）引入大语言模型后训练的 off-policy 价值函数强化学习方法，在数学推理基准上收敛更快、性能更优，为 LLM 训练效率瓶颈提供了全新解题路径。

研究背景

当前 LLM 强化学习后训练（RLHF / RLVR）几乎全部依赖 on-policy 算法（GRPO、PPO、REINFORCE 等），这类方法每次只使用一批新采样数据更新策略，然后立即丢弃——数据利用率极低。

在深度强化学习领域（机器人、游戏），off-policy 方法（SAC、TD3、DQN）通过引入价值函数（Value Function）和回放缓冲区（Replay Buffer），早已证明可以将历史轨迹反复复用，极大提升样本效率。但将这套范式迁移到 LLM 序列生成场景面临两大挑战：（1）动作空间是离散 token，状态空间是指数级的序列；（2）奖励信号仅在轨迹末端才可得（稀疏奖励）。

ReVal 首次系统性地解决了这两个挑战。

核心方法

ReVal（Replay-Enhanced Value Learning） 的两大核心设计：

1. 逐步一致性信号（Stepwise Consistency Signal）

将 LLM 的生成过程建模为马尔可夫决策过程（MDP），以每个 token 为一步
利用"前缀一致性"捕捉内部推理步骤的质量：若当前前缀能以更高概率生成正确最终答案，则该步骤质量更高
这构成密集的逐步奖励，解决传统 LLM RL 的稀疏奖励问题

2. 轨迹级验证信号（Trajectory-Level Verification Signal）

在完整轨迹末端使用结果验证器（ORM/规则验证器）给出 0/1 终端奖励
与逐步信号结合，通过贝尔曼更新传播奖励至每个时间步

3. 回放缓冲区训练

历史生成的轨迹被存入 replay buffer，后续训练迭代可反复复用
与 off-policy TD 学习兼容，每条轨迹利用率大幅提升

$$Q(s_t, a_t) \leftarrow r_t + \gamma \max_{a'} Q(s_{t+1}, a')$$

实验结果

基准	GRPO（基线）	ReVal	提升
AIME 2024	基线	+2.7%	↑ 2.7 pp
GPQA（跨域推理）	基线	+4.5%	↑ 4.5 pp
训练收敛速度	标准	更快	更少数据达到同等性能

测试模型：DeepSeek-R1-Distill-1.5B（轻量级，便于对比）
与 GRPO 相比，在相同计算预算下 ReVal 最终性能更优，收敛速度更快

为什么重要

1. 方法论突破：打开了 LLM 训练的新范式

LLM 后训练中，on-policy 方法的核心瓶颈是样本效率低——分布式训练中 rollout 生成往往是速度瓶颈，数据只用一次是巨大浪费。ReVal 证明了 off-policy 价值函数方法在 LLM 后训练中是切实可行的，为工业界大规模训练系统带来新的优化维度。

2. 与已有技术路线的互补性

ReVal 与以下技术天然兼容，联合使用有望带来更大收益：

优先级回放（Prioritized Replay）：优先复用高价值轨迹
N-step 回报估计：提升长程奖励传播质量
多步推理链（Long CoT）：长轨迹下样本复用价值更大

3. 引发连锁研究

off-policy LLM RL 此前虽有少数探索（如 BAPO、DPO 的 off-policy 变体），但 ReVal 首次提供了一套完整的基于价值函数的框架，预计将在后续数月内引发大量跟进研究。

一点思考

ReVal 当前在 1.5B 小模型上验证，自然引发的问题是：scale up 后效果是否保持？

猜测方向：随着模型规模增大、Long CoT 轨迹变长，off-policy 复用的边际收益理论上应当更大——因为每条轨迹的生成成本更高、信息密度更大。不过大规模训练中的训练稳定性（critic 网络的引入带来额外复杂度）和分布偏移（replay buffer 中老数据与当前策略的差异）是需要重点解决的问题。

论文链接

arXiv 页面：https://arxiv.org/abs/2603.23355
PDF 直链：https://arxiv.org/pdf/2603.23355

扩展阅读（本期候选论文）

以下论文同样值得关注，供参考：

#	论文	arXiv	亮点
1	PAPO: Stabilizing Rubric Integration Training via Decoupled Advantage Normalization	2603.26535	解耦 ORM+PRM 信号融合，OlympiadBench +5pp；直接改进 GRPO
2	RPS-Serve: Rocks, Pebbles and Sand — Modality-aware Scheduling for MLLM Inference	2603.26498	多模态推理调度，整体 TTFT 降低 54%，文本请求 TTFT 降低 78.5%
3	CALVO: Improve Serving Efficiency for LLM with Intense Network Demands	2603.21257	上交大+华为+TeleAI，KV Cache 加载解耦异步，SLO 达成率提升 61.67%
4	Slow-Fast Inference: Training-Free Inference Acceleration	2603.12038	无需训练，句子内注意力支撑稳定性，吞吐量提升 1.6×–14.4×
5	MoE-GRPO: Optimizing MoE via RL in Vision-Language Models	2603.24984	CVPR 2026 接收，将专家路由建模为 RL 顺序决策，优于 Top-K 路由

本期主题洞察

本周 arXiv LLM 训练方向热点：将深度 RL 经典范式迁移至 LLM 后训练

近两周 arXiv 呈现出明显趋势：研究者正在将深度强化学习领域积累了十余年的成熟技术（off-policy 学习、价值函数方法、过程奖励建模）系统性地引入 LLM 后训练流水线。ReVal（off-policy 价值函数）、PAPO（ORM+PRM 解耦）均是这一趋势的代表作。与此同时，推理系统层面（RPS-Serve、CALVO、Slow-Fast Inference）持续深化对长上下文和多模态请求的系统级优化，形成"算法-系统"双轮驱动的研究格局。

posted @ 2026-04-09 01:43 SHICENT 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

SHICENT

永远不要停下前进的脚步

ReVal：首个基于贝尔曼更新的异策略价值函数 RL 方法用于大语言模型训练

论文日报 2026-03-30

今日精选