2025 年 9月 3 日随笔档案 - deephub

2025年9月3日

微软rStar2-Agent：新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型

摘要： Microsoft Research最近发布的rStar2-Agent展示了一个令人瞩目的结果：一个仅有14B参数的模型在AIME24数学基准测试上达到了80.6%的准确率，超越了671B参数的DeepSeek-R1（79.8%）。这不是简单的参数效率提升，而是AI推理的进步。过去几年，大语言模型阅读全文

posted @ 2025-09-03 20:30 deephub 阅读(42) 评论(0) 推荐(0)

deephub

overfit深度学习

公告