摘要: arixv链接 日期:25.04 机构:LeapLab+清华 期刊:NiPS best paper 一篇实验文章,作者通过实验发现,强化学习(RLVR)方法虽然能够提高大语言模型在数学、编程等推理任务上的采样效率(即在少量尝试中获得正确答案的概率),但并没有真正激发出超越基础模型的全新推理能力。 ( 阅读全文
posted @ 2025-12-08 10:49 Brain404 阅读(31) 评论(0) 推荐(0)