摘要: DPO 隐式地优化了与现有 RLHF 算法(基于 KL 散度约束的奖励最大化)相同的目标函数。然而,与传统 RLHF 方法(需要首先训练一个独立的奖励模型,然后通过强化学习来优化策略)不同,DPO 推导并提出了一种直接利用人类偏好数据进行策略优化的简单、稳定的方法,完全避免了训练奖励模型和 RL 训 阅读全文
posted @ 2025-11-20 21:05 东方澄TouhouSumi 阅读(5) 评论(0) 推荐(0)