随笔档案「2025年11月4日」：解密prompt系列63. Agent训练方案:RStar2 &... - 风雨中的小七

摘要：

当大模型成为Agent，我们该如何教会它“行动”？我们将看到一条演进路线：从优化单一动作（ReTool），到学习长程规划（RAGEN），再到提升思考质量本身（RStar2），最后到一种不依赖外部奖励的、更底层的经验内化方式（Early Experience）。阅读全文

posted @ 2025-11-04 07:47 风雨中的小七阅读(243) 评论(0) 推荐(1)