2024 年 1月 15 日随笔档案 - kkzhang

2024年1月15日

DPO: Direct Preference Optimization 直接偏好优化（学习笔记）

摘要：学习参考：链接1 一、为什么要提出DPO 在之前，我们已经了解到基于人类反馈的强化学习RLHF分为三个阶段：全监督微调（SFT）、奖励模型（RM）、强化学习（PPO）。但是RLHF面临缺陷：RLHF 是一个复杂且经常不稳定的过程，首先拟合反映人类偏好的奖励模型，然后使用强化学习微调大型无监督 LM，阅读全文

posted @ 2024-01-15 09:56 kkzhang 阅读(49846) 评论(0) 推荐(1)

Dream

公告