自我博弈偏好优化(Self-Play Preference Optimization,SPO)能否奖励模型?
摘要:
自我博弈偏好优化(Self-Play Preference Optimization, SPO)是一种通过自我博弈机制直接优化策略的方法,其核心特点是无需显式奖励模型,也不依赖对抗性训练。从技术本质来看,SPO 确实在特定场景下取代了奖励模型,但这一取代并非绝对,而是取决于任务类型和优化目标。以下从 阅读全文
posted @ 2025-08-22 11:07 limingqi 阅读(34) 评论(0) 推荐(0)