会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
xiaoxi666
Master programmers think of systems as stories to be told rather than programs to be written.
博客园
首页
新随笔
联系
订阅
管理
2025年2月18日
RLHF各种训练算法科普
摘要: 强化学习在LLM中的应用越来越多了,本文针对常见的几种训练算法,用生活中的例子做类比,帮助理解相关概念。 包括:PPO、DRO、DPO、β-DPO、sDPO、RSO、IPO、GPO、KTO、ORPO、SimPO、R-DPO、RLOO,以及GRPO。 PPO(Proximal Policy Optim
阅读全文
posted @ 2025-02-18 23:18 xiaoxi666
阅读(792)
评论(0)
推荐(1)
公告
TOP