摘要: LLM的强化学习训练最近进展很快,SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再到HKUST,这些研究团队正在攻克的是RL领域的一个老大难:怎么控制好熵,同时避免模型退化成毫无用处的确定性输出。 三篇新论文给出了不同角度 阅读全文
posted @ 2025-10-26 19:12 deephub 阅读(8) 评论(0) 推荐(0)