摘要: 减少推理链长度综述 在RL的奖励奖励函数中处理 DAPO(25.03)使用软性长度惩罚 ShorterBetter(25.04,芝加哥大学):找到一个最优长度(模型生成的8个不同回答中,长度最短的正确答案),然后让模型回答长度尽可能接近这个最优长度 SGRPO(25.05,华为):S-GRPO 在单 阅读全文
posted @ 2025-12-13 22:47 Brain404 阅读(8) 评论(0) 推荐(0)
摘要: 1. DeepSeek-r1-zero(推理能力提升) 1.1 数据 prompt模版 数据详情:文章中没有提到 1.2 奖励建模 采用基于规则的奖励系统,主要包括两类奖励: 准确率奖励:准确率奖励模型评估响应是否正确。 例如,在具有确定性结果的数学问题中, 要求模型以指定格式(如方框内)提供最终答 阅读全文
posted @ 2025-12-13 17:39 Brain404 阅读(13) 评论(0) 推荐(0)