RM-Bench 和 reward_bench 评估指标的优化
摘要:
RM-Bench 和 RewardBench 的指标可以同时优化,但需要系统性地解决数据设计、模型架构和训练策略中的核心矛盾。以下结合最新研究进展和工业级实践,从数据增强、模型校准、训练范式、评估创新四个维度提出可落地的优化方案: 一、数据增强:构建对抗性混合数据集 1. 金标准锚定 + 银标准扩展 阅读全文
posted @ 2025-07-23 15:02 limingqi 阅读(62) 评论(0) 推荐(0)