随笔档案「2025年3月28日」：DPO介绍+公式推理 ... - [X_O]

2025年3月28日

摘要：

1. 什么是DPO？ DPO（Direct Preference Optimization）是一种用于对齐大语言模型（LLMs）的新型方法，旨在高效地将人类偏好融入模型训练中。它提供了一种替代强化学习（如 RLHF, Reinforcement Learning with Human Feedbac 阅读全文

posted @ 2025-03-28 22:26 [X_O] 阅读(2474) 评论(1) 推荐(1)

Loading

Burglar

公告