2025年8月14日

奖励模型评估指标

摘要: 奖励模型(Reward Model, RM)的核心作用是对文本(如对话回复、生成内容)的质量或偏好进行打分,其评估指标需围绕 “打分是否准确反映真实偏好”“模型稳定性”“泛化能力” 等核心目标设计。以下是常见的奖励模型评估指标,按应用场景和评估维度分类说明: 一、偏好对齐指标(核心指标) 这类指标衡 阅读全文

posted @ 2025-08-14 16:37 limingqi 阅读(89) 评论(0) 推荐(0)

导航