摘要:
减少推理链长度综述 在RL的奖励奖励函数中处理 DAPO(25.03)使用软性长度惩罚 ShorterBetter(25.04,芝加哥大学):找到一个最优长度(模型生成的8个不同回答中,长度最短的正确答案),然后让模型回答长度尽可能接近这个最优长度 SGRPO(25.05,华为):S-GRPO 在单 阅读全文
posted @ 2025-12-13 22:47
Brain404
阅读(8)
评论(0)
推荐(0)
摘要:
1. DeepSeek-r1-zero(推理能力提升) 1.1 数据 prompt模版 数据详情:文章中没有提到 1.2 奖励建模 采用基于规则的奖励系统,主要包括两类奖励: 准确率奖励:准确率奖励模型评估响应是否正确。 例如,在具有确定性结果的数学问题中, 要求模型以指定格式(如方框内)提供最终答 阅读全文
posted @ 2025-12-13 17:39
Brain404
阅读(12)
评论(0)
推荐(0)

浙公网安备 33010602011771号