FocalPO：通过聚焦正确偏好排序增强偏好优化技术

摘要

高效偏好优化算法（如直接偏好优化DPO）已成为对齐大语言模型（LLM）与人类偏好的主流方法。这些算法隐式将LLM视为奖励模型，重点修正错误排序的偏好对。然而，近期研究发现DPO训练极少改善这些错误排序对，尽管其梯度强调此类情况。

FocalPO作为DPO的改进版本，降低错误排序对的权重，优先增强模型对已能正确排序对的理解。受视觉任务中Focal Loss启发，FocalPO通过引入调制因子动态缩放DPO损失实现该目标。实验表明，FocalPO在Mistral-Base-7B和Llama-3-Instruct-8B模型上，以固定超参数在Alpaca Eval 2.0等基准测试中超越DPO及其变体。此外，研究实证分析了FocalPO对正确与错误样本组的训练影响，进一步验证其有效性。

关键内容

问题发现：DPO虽设计用于修正错误排序偏好对，但实际训练中对此类对的改进效果有限。
方法创新：
- 引入调制因子动态调整损失权重，聚焦模型已有排序能力的偏好对。
- 采用类似Focal Loss的机制，抑制错误排序对的梯度干扰。
实验结果：
- 在Alpaca Eval 2.0等基准测试中，FocalPO显著优于DPO及其变体。
- 消融实验揭示FocalPO通过平衡正确/错误样本的学习效率提升整体性能。

技术贡献

提出首个针对偏好排序能力动态调整损失权重的优化框架。
为LLM对齐任务提供可解释性更强的训练动态分析。

更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码

posted @ 2025-08-07 08:02 CodeShare 阅读(34) 评论(0) 收藏举报

刷新页面返回顶部

codeshare1135

FocalPO：通过聚焦正确偏好排序增强偏好优化技术

摘要

关键内容

技术贡献

公告