Loading

摘要: DPO介绍+公式推理 1. 什么是DPO? DPO(Direct Preference Optimization)是一种用于对齐大语言模型(LLMs)的新型方法,旨在高效地将人类偏好融入模型训练中。它提供了一种替代强化学习(如 RLHF, Reinforcement Learning with Human Feedbac 阅读全文
posted @ 2025-03-28 22:26 [X_O] 阅读(2093) 评论(1) 推荐(1)