2025 年 12月 8 日随笔档案 - Brain404

2025年12月8日

摘要： arixv链接日期：25.04 机构：LeapLab+清华期刊：NiPS best paper 一篇实验文章，作者通过实验发现，强化学习（RLVR）方法虽然能够提高大语言模型在数学、编程等推理任务上的采样效率（即在少量尝试中获得正确答案的概率），但并没有真正激发出超越基础模型的全新推理能力。（阅读全文

posted @ 2025-12-08 10:49 Brain404 阅读(31) 评论(0) 推荐(0)

rh-li

公告