LLM | multi-turn 任务下的 RL 微调:RAGEN, ArCHer, GiGPO, VinePPO


最近读了一些 LLM 的 multi-turn RL 文章,写博客记录一下。

正在看的 GitHub 参考 repo:https://github.com/yubol-bobo/Awesome-Multi-Turn-LLMs



前置知识:使用 PPO 和 GRPO 微调 LLM

(仍待补充

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

信息:

参考博客:

需要关注这篇文章的训练硬件要求。

[ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

信息:

应该是早期 multi-turn 文章之一。

发现 trick 意外的很多,虽然思路听起来相当简单。

感觉这篇文章是师兄对 multi-turn LLM 的印象的主要来源。

[NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training

信息:

[ICML 2025] VinePPO: Refining Credit Assignment in RL Training of LLMs

信息:

因为 ArCHer 和 RAGEN 都提到了 credit assignment 的事情,所以这里有一篇 credit assignment 的文章 VinePPO。

需要关注这篇文章的训练硬件要求。



(还有一篇,Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models。这篇可能还没中,并且 GitHub 也没人 star,可能质量相对一般)

deepseek 速读:

主要方法与算法流程:

  1. 训练阶段:
    1. MCTS 收集数据:用 LLM 智能体在环境中探索,通过选择-扩展-评估-回传四步,计算每一步动作的 Q 值。
    2. 构建偏好数据:从 MCTS 树中提取“好动作”(高 Q 值)和“坏动作”(低 Q 值)。
    3. 步级 DPO 训练 Q 模型:用一个轻量 LLM(如 Phi-1.5)学习区分好坏动作,损失函数基于动作概率比。
  2. 推理阶段:
    1. 采样多个候选动作。
    2. 用训练好的 Q 值模型计算每个动作的 Q 值。
    3. 选择 Q 值最高的动作执行。
  3. 模块协同:MCTS 负责生成标注数据,DPO 负责训练 Q 模型,推理时 Q 模型替代贪心选择。


posted @ 2026-01-03 16:54  MoonOut  阅读(32)  评论(0)    收藏  举报