摘要:
当大模型成为Agent,我们该如何教会它“行动”?我们将看到一条演进路线:从优化单一动作(ReTool),到学习长程规划(RAGEN),再到提升思考质量本身(RStar2),最后到一种不依赖外部奖励的、更底层的经验内化方式(Early Experience)。 阅读全文
当大模型成为Agent,我们该如何教会它“行动”?我们将看到一条演进路线:从优化单一动作(ReTool),到学习长程规划(RAGEN),再到提升思考质量本身(RStar2),最后到一种不依赖外部奖励的、更底层的经验内化方式(Early Experience)。 阅读全文
posted @ 2025-11-04 07:47
风雨中的小七
阅读(186)
评论(0)
推荐(1)

浙公网安备 33010602011771号