RAG-Gym: 基于过程监督的检索增强生成代理优化框架
传统检索增强生成(RAG)架构因依赖静态检索机制,在处理需要顺序信息搜索的复杂问题时存在效能限制。尽管基于代理的推理与搜索方法提供了更具适应性的解决方案,但现有方法大多过度依赖提示工程技术。
针对上述挑战,本文介绍了RAG-Gym框架,这是一种通过在搜索过程中实施细粒度过程监督来增强信息搜索代理的统一优化方法。该研究的主要贡献包括:提出RAG-Gym统一优化框架;设计ReSearch代理架构,实现答案推理与搜索协同;验证了经训练的过程奖励模型作为验证器能显著提升搜索代理性能;以及针对代理式RAG系统中过程监督来源、奖励模型可迁移性和性能扩展规律提供了系统性分析。
RAG-Gym框架
框架概述
RAG-Gym将知识密集型问答任务形式化为嵌套马尔可夫决策过程(MDP),构建了完整的过程监督体系。该框架通过在每个决策时间步骤随机采样动作候选项,并利用外部注释器选择最优动作来收集过程奖励数据。框架内实现了多种过程监督方法,为代理优化提供了统一的实验环境。
https://avoid.overfit.cn/post/b8ca237f97614085955d55b3fda2d6e4