摘要: 学习参考:链接1 一、为什么要提出DPO 在之前,我们已经了解到基于人类反馈的强化学习RLHF分为三个阶段:全监督微调(SFT)、奖励模型(RM)、强化学习(PPO)。但是RLHF面临缺陷:RLHF 是一个复杂且经常不稳定的过程,首先拟合反映人类偏好的奖励模型,然后使用强化学习微调大型无监督 LM, 阅读全文
posted @ 2024-01-15 09:56 kkzhang 阅读(3331) 评论(0) 推荐(0) 编辑