随笔档案「2025年2月14日」：解密prompt系列48. DeepSeek R1 & Kimi... - 风雨中的小七

2025年2月14日

解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling

摘要：

春节前DeepSeek R1和Kimi1.5炸翻天了，之前大家推测的O1的实现路径，多数都集中在MCTS推理优化，以及STaR等样本自优化方案等等，结果DeepSeek和Kiim直接出手揭示了reasoning的新路线不一定在SFT和Inference Scaling，也可以在RL。也算是Post Train阶段新的Scaling方向，几个核心Take Away包括阅读全文

posted @ 2025-02-14 20:35 风雨中的小七阅读(1645) 评论(0) 推荐(0)