会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
hsr0316
博客园
首页
新随笔
联系
订阅
管理
2025年7月31日
DPO 与 PPO 算法原理与代码实现对比
摘要: DPO 与 PPO 算法原理与代码实现对比 近年来,大语言模型(LLM)训练中,强化学习(RL)技术被广泛应用于对齐模型输出与人类偏好。PPO(Proximal Policy Optimization)是 RLHF(Reinforcement Learning from Human Feedback
阅读全文
posted @ 2025-07-31 15:59 hsr0316
阅读(367)
评论(0)
推荐(0)
公告