摘要: 作者:SpaderMan 在人工智能训练过程中,模型能力的跃迁往往并非线性提升,而是伴随着潜移默化的积累与突现的顿悟。本文以小模型为例,尝试通过强化学习探索 DeepSeek R1 中“顿悟现象”的再现与分析,揭示智能系统从量变到质变的过程。 实践目的 我们实践的目标包括: 探索语言模型在强化学习中 阅读全文
posted @ 2025-06-11 16:14 spader-ai 阅读(15) 评论(0) 推荐(0)