2025 年 5月 27 日随笔档案 - 一介布衣、

2025年5月27日

摘要： https://blog.csdn.net/qq_38961840/article/details/145384852 https://arxiv.org/abs/2402.03300 强化学习中的基本概念智能体、环境与交互在传统的强化学习框架中，我们通常有一个智能体（Agent）和一个环境（阅读全文

posted @ 2025-05-27 14:49 一介布衣、阅读(548) 评论(0) 推荐(0)

自主决定是否需要思考Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

摘要： https://arxiv.org/abs/2505.16854 https://github.com/kokolerk/TON 摘要强化学习（RL）已被证明是提高视觉-语言模型（VLMs）推理能力的有效后训练策略。组相对策略优化（GRPO）是一种近期突出的方法，通过鼓励模型在回答之前生成完整的推阅读全文

posted @ 2025-05-27 10:31 一介布衣、阅读(228) 评论(0) 推荐(0)

一介布衣、

公告