摘要:
https://blog.csdn.net/qq_38961840/article/details/145384852 https://arxiv.org/abs/2402.03300 强化学习中的基本概念 智能体、环境与交互 在传统的强化学习框架中,我们通常有一个智能体(Agent) 和一个环境( 阅读全文
posted @ 2025-05-27 14:49
一介布衣、
阅读(548)
评论(0)
推荐(0)
摘要:
https://arxiv.org/abs/2505.16854 https://github.com/kokolerk/TON 摘要 强化学习(RL)已被证明是提高视觉-语言模型(VLMs)推理能力的有效后训练策略。组相对策略优化(GRPO)是一种近期突出的方法,通过鼓励模型在回答之前生成完整的推 阅读全文
posted @ 2025-05-27 10:31
一介布衣、
阅读(228)
评论(0)
推荐(0)

浙公网安备 33010602011771号