ProRL：基于长期强化学习让1.5B小模型推理能力超越7B大模型

这个研究挑战了强化学习仅能放大现有模型输出能力的传统观点，通过实验证明长期强化学习训练（ProRL）能够使基础模型发现全新的推理策略。ProRL方法体系包含KL散度控制机制、参考策略重置技术以及多元化任务训练集。

ProRL核心方法论

基于GRPO的强化学习算法

ProRL采用组相对策略优化（Group Relative Policy Optimization, GRPO）作为核心强化学习算法。相较于传统的近端策略优化（Proximal Policy Optimization, PPO），GRPO移除了价值函数模型，转而采用基于组分数的基线估计方法。该算法的优化目标函数定义如下：

https://avoid.overfit.cn/post/49b5f8e62762480ba9a10b783e8f039f

posted @ 2025-06-15 10:26 deephub 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

ProRL：基于长期强化学习让1.5B小模型推理能力超越7B大模型

ProRL核心方法论

基于GRPO的强化学习算法

公告