会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
2025年6月15日
ProRL:基于长期强化学习让1.5B小模型推理能力超越7B大模型
摘要: 这个研究挑战了强化学习仅能放大现有模型输出能力的传统观点,通过实验证明长期强化学习训练(ProRL)能够使基础模型发现全新的推理策略。ProRL方法体系包含KL散度控制机制、参考策略重置技术以及多元化任务训练集。 ProRL核心方法论 基于GRPO的强化学习算法 ProRL采用组相对策略优化(Gro
阅读全文
posted @ 2025-06-15 10:26 deephub
阅读(27)
评论(0)
推荐(0)
公告