会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Dream
博客园
首页
新随笔
联系
管理
订阅
2024年1月15日
DPO: Direct Preference Optimization 直接偏好优化(学习笔记)
摘要: 学习参考:链接1 一、为什么要提出DPO 在之前,我们已经了解到基于人类反馈的强化学习RLHF分为三个阶段:全监督微调(SFT)、奖励模型(RM)、强化学习(PPO)。但是RLHF面临缺陷:RLHF 是一个复杂且经常不稳定的过程,首先拟合反映人类偏好的奖励模型,然后使用强化学习微调大型无监督 LM,
阅读全文
posted @ 2024-01-15 09:56 kkzhang
阅读(3331)
评论(0)
推荐(0)
编辑
公告