随笔档案「2025年3月10日」：解密prompt系列50. RL用于优化Agent行为路径的一些思路 ... - 风雨中的小七

2025年3月10日

摘要：

而Deep Research的效果类似O1的长思考是非常长的行为链，OpenAI也直接表明Deep Research是使用和O1相同的RL训练得到的。但这里比O1更难的就是数据集的设计，训练过程动态行为数据的引入和RL目标的选择。这一章我们分别介绍从两个不同角度使用RL优化Agent行为链路的方案，其中PaSa更类似Deep Research的链式行为链使用RL直接优化行为路径，而ARMAP则是使用RL优化Verifier指导行为链的生成。阅读全文

posted @ 2025-03-10 07:30 风雨中的小七阅读(1093) 评论(0) 推荐(0)