会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
BronyaSilverwing
博客园
首页
新随笔
联系
订阅
管理
2025年2月26日
PPO和GRPO算法详解(持续更新中)
摘要: PPO 众所周知,PPO在LLM应用下, t时刻下,State就变成了query+output(<t) Reference是初始模型,举个例子可以认为是deepseek V3+SFT之后的模型,是不变的,是fozen model 从头开始推导一次: t0时刻: query输入到policy mode
阅读全文
posted @ 2025-02-26 14:34 Bronya_Silverwing
阅读(576)
评论(0)
推荐(0)
公告