LLM | multi-turn 任务下的 RL 微调：RAGEN, ArCHer, GiGPO, VinePPO

最近读了一些 LLM 的 multi-turn RL 文章，写博客记录一下。

正在看的 GitHub 参考 repo：https://github.com/yubol-bobo/Awesome-Multi-Turn-LLMs

前置知识：使用 PPO 和 GRPO 微调 LLM
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
[ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL
[NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training
[ICML 2025] VinePPO: Refining Credit Assignment in RL Training of LLMs

前置知识：使用 PPO 和 GRPO 微调 LLM

（仍待补充

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

信息：

应该还没有投 / 中什么会，但是 GitHub 有 2.4k star，所以可能是靠谱的，并且可能很好用。师兄也说这个代码好用，提供了很多 multi-turn 环境。
website：https://ragen-ai.github.io/
arxiv：https://arxiv.org/abs/2504.20073
pdf：https://arxiv.org/pdf/2504.20073
html：https://arxiv.org/html/2504.20073v2
GitHub：https://github.com/mll-lab-nu/RAGEN
文档：https://ragen-doc.readthedocs.io/en/latest/

参考博客：

需要关注这篇文章的训练硬件要求。

[ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

信息：

ICML 2024。应该是早期 multi-turn 文章。
website：https://yifeizhou02.github.io/archer.io/
arxiv：https://arxiv.org/abs/2402.19446
pdf：https://arxiv.org/pdf/2402.19446
html：https://arxiv.org/html/2402.19446v1
open review（没有审稿人意见可看）：https://openreview.net/forum?id=b6rA0kAHT1
参考博客：CSDN | ArCHer：LLM 的高效分层强化学习框架，突破多轮决策瓶颈

应该是早期 multi-turn 文章之一。

发现 trick 意外的很多，虽然思路听起来相当简单。

感觉这篇文章是师兄对 multi-turn LLM 的印象的主要来源。

[NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training

信息：

NeurIPS 2025，5 4 4 4 poster。
arxiv：https://arxiv.org/abs/2505.10978
html：https://arxiv.org/html/2505.10978v3
pdf：https://arxiv.org/pdf/2505.10978
open review：https://openreview.net/forum?id=QXEhBMNrCW
论文作者的知乎博客：知乎 | 为什么 GRPO 训不好 LLM Agent？GiGPO 算法介绍
GitHub：https://github.com/langfengQ/verl-agent （目前 star 1.1k）
参考博客：CSDN | GiGPO：为 LLM 智能体注入细粒度信用分配，突破长视野决策瓶颈

[ICML 2025] VinePPO: Refining Credit Assignment in RL Training of LLMs

信息：

ICML 2025，4 4 3 3 poster。
arxiv：https://arxiv.org/abs/2410.01679
pdf：https://arxiv.org/pdf/2410.01679
html：https://arxiv.org/html/2410.01679
GitHub：https://github.com/McGill-NLP/VinePPO
open review：https://openreview.net/forum?id=Myx2kJFzAn
参考博客：CSDN | VinePPO：基于蒙特卡洛采样的无偏 credit assignment，提升大模型推理能力

因为 ArCHer 和 RAGEN 都提到了 credit assignment 的事情，所以这里有一篇 credit assignment 的文章 VinePPO。

需要关注这篇文章的训练硬件要求。

（还有一篇，Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models。这篇可能还没中，并且 GitHub 也没人 star，可能质量相对一般）

arxiv：https://arxiv.org/abs/2409.09345
pdf：https://arxiv.org/pdf/2409.09345
GitHub：https://github.com/George-Chia/LLM-Agents-with-Q

deepseek 速读：

主要方法与算法流程：

训练阶段：

MCTS 收集数据：用 LLM 智能体在环境中探索，通过选择-扩展-评估-回传四步，计算每一步动作的 Q 值。

构建偏好数据：从 MCTS 树中提取“好动作”（高 Q 值）和“坏动作”（低 Q 值）。

步级 DPO 训练 Q 模型：用一个轻量 LLM（如 Phi-1.5）学习区分好坏动作，损失函数基于动作概率比。

推理阶段：

采样多个候选动作。

用训练好的 Q 值模型计算每个动作的 Q 值。

选择 Q 值最高的动作执行。

模块协同：MCTS 负责生成标注数据，DPO 负责训练 Q 模型，推理时 Q 模型替代贪心选择。

posted @ 2026-01-03 16:54 MoonOut 阅读(74) 评论(0) 收藏举报

刷新页面返回顶部