随笔档案「2025年3月25日」：解密prompt系列51. R1实验的一些细节讨论 ... - 风雨中的小七

摘要：

DeepSeek R1出来后业界都在争相复现R1的效果，这一章我们介绍两个复现项目SimpleRL和LogicRL，还有研究模型推理能力的Cognitive Behaviour，项目在复现R1的同时还针对R1训练策略中的几个关键点进行了讨论和消融实验，包括阅读全文

posted @ 2025-03-25 07:34 风雨中的小七阅读(778) 评论(0) 推荐(0)