会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
又见阿郎
博客园
首页
新随笔
联系
订阅
管理
当前标签:grpo
聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型
又见阿郎 2025-02-07 13:58
阅读:9340
评论:0
推荐:1
公告