2025 年 10月 18 日随笔档案 - qlhh

2025年10月18日

摘要：论文地址 https://arxiv.org/abs/2503.14476 参考实验：DAPO + vLLM v1 + VeRL —— VOC性能比较 Motivation 没有完整的GRPO训练R1-32B的框架目标：降低错误样本的长度 (token-level loss) 训练更加稳定 (o 阅读全文

posted @ 2025-10-18 23:04 qlhh 阅读(77) 评论(0) 推荐(0)

qlhh

公告