摘要: 解密prompt系列63. Agent训练方案:RStar2 & Early Experience etc 当大模型成为Agent,我们该如何教会它“行动”?我们将看到一条演进路线:从优化单一动作(ReTool),到学习长程规划(RAGEN),再到提升思考质量本身(RStar2),最后到一种不依赖外部奖励的、更底层的经验内化方式(Early Experience)。 阅读全文
posted @ 2025-11-04 07:47 风雨中的小七 阅读(186) 评论(0) 推荐(1)