会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
qlhh
博客园
首页
新随笔
联系
订阅
管理
2025年10月20日
PPO GRPO GSPO DAPO的Loss计算与代码实现
摘要: 首先看一下KL的基础公式 KL KL1: 大模型的KL一般是反向的: \[KL(\pi_\theta||\pi_{ref}) = E_{x\sim\pi_\theta(\cdot|o_{<t})}log\frac{\pi_\theta(x|o_{<t})}{\pi_{ref}(x|o_{<t})}
阅读全文
posted @ 2025-10-20 17:02 qlhh
阅读(265)
评论(0)
推荐(1)
公告