2025 年 12月 13 日随笔档案 - Brain404

2025年12月13日

摘要：减少推理链长度综述在RL的奖励奖励函数中处理 DAPO（25.03）使用软性长度惩罚 ShorterBetter（25.04，芝加哥大学）：找到一个最优长度（模型生成的8个不同回答中，长度最短的正确答案），然后让模型回答长度尽可能接近这个最优长度 SGRPO（25.05，华为）：S-GRPO 在单阅读全文

posted @ 2025-12-13 22:47 Brain404 阅读(8) 评论(0) 推荐(0)

deepseek-r1-grpo

摘要： 1. DeepSeek-r1-zero（推理能力提升） 1.1 数据 prompt模版数据详情：文章中没有提到 1.2 奖励建模采用基于规则的奖励系统，主要包括两类奖励：准确率奖励：准确率奖励模型评估响应是否正确。例如，在具有确定性结果的数学问题中，要求模型以指定格式（如方框内）提供最终答阅读全文

posted @ 2025-12-13 17:39 Brain404 阅读(13) 评论(0) 推荐(0)

rh-li

公告