会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
东方澄TouhouSumi
博客园
首页
新随笔
联系
订阅
管理
2025年11月20日
详解 DPO
摘要: DPO 隐式地优化了与现有 RLHF 算法(基于 KL 散度约束的奖励最大化)相同的目标函数。然而,与传统 RLHF 方法(需要首先训练一个独立的奖励模型,然后通过强化学习来优化策略)不同,DPO 推导并提出了一种直接利用人类偏好数据进行策略优化的简单、稳定的方法,完全避免了训练奖励模型和 RL 训
阅读全文
posted @ 2025-11-20 21:05 东方澄TouhouSumi
阅读(5)
评论(0)
推荐(0)
公告