会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
第七子007
博客园
首页
新随笔
联系
订阅
管理
2025年2月5日
LLM大模型:deepseek浅度解析(三):R1的reinforcement learning GRPO复现
摘要: deepseek-R1比较创新的点就是reward函数了,其自创的GRPO方法,详解如下:https://www.cnblogs.com/theseventhson/p/18696408 训练出了R1-zero和R1两个强化学习版本!幸运的是,GRPO的这个算法已经有人实现,并集成到huggingf
阅读全文
posted @ 2025-02-05 18:00 第七子007
阅读(3238)
评论(0)
推荐(2)
公告