摘要: 论文地址 https://arxiv.org/abs/2503.14476 参考实验:DAPO + vLLM v1 + VeRL —— VOC性能比较 Motivation 没有完整的GRPO训练R1-32B的框架 目标: 降低错误样本的长度 (token-level loss) 训练更加稳定 (o 阅读全文
posted @ 2025-10-18 23:04 qlhh 阅读(60) 评论(0) 推荐(0)