摘要: https://blog.csdn.net/qq_38961840/article/details/145384852 https://arxiv.org/abs/2402.03300 强化学习中的基本概念 智能体、环境与交互 在传统的强化学习框架中,我们通常有一个智能体(Agent) 和一个环境( 阅读全文
posted @ 2025-05-27 14:49 一介布衣、 阅读(548) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2505.16854 https://github.com/kokolerk/TON 摘要 强化学习(RL)已被证明是提高视觉-语言模型(VLMs)推理能力的有效后训练策略。组相对策略优化(GRPO)是一种近期突出的方法,通过鼓励模型在回答之前生成完整的推 阅读全文
posted @ 2025-05-27 10:31 一介布衣、 阅读(228) 评论(0) 推荐(0)