摘要: 解密prompt系列51. R1实验的一些细节讨论 DeepSeek R1出来后业界都在争相复现R1的效果,这一章我们介绍两个复现项目SimpleRL和LogicRL,还有研究模型推理能力的Cognitive Behaviour,项目在复现R1的同时还针对R1训练策略中的几个关键点进行了讨论和消融实验,包括 阅读全文
posted @ 2025-03-25 07:34 风雨中的小七 阅读(737) 评论(0) 推荐(0)