奖励模型训练数据的分布情况
摘要:
奖励模型(Reward Model, RM)的训练数据通常是偏好数据(如包含prompt、chosen(优选响应)、rejected(非优选响应)的三元组),其分布情况直接影响模型的偏好学习和泛化能力。查看分布需从数据基本特征、文本内容特性、任务 / 元数据标签等多个维度分析,以下是具体方法和工具: 阅读全文
posted @ 2025-07-22 14:05 limingqi 阅读(33) 评论(0) 推荐(0)