2025 年 10月 26 日随笔档案 - deephub

2025年10月26日

摘要： LLM的强化学习训练最近进展很快，SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再到HKUST，这些研究团队正在攻克的是RL领域的一个老大难：怎么控制好熵，同时避免模型退化成毫无用处的确定性输出。三篇新论文给出了不同角度阅读全文

posted @ 2025-10-26 19:12 deephub 阅读(18) 评论(0) 推荐(0)

deephub

overfit深度学习

公告