2025年4月8日
摘要: O1复盘 简单复盘 o1 和 r1 之间间隔了四个月,这段时间里,rule-based reward 并没有被主流技术方案所认可。我们不妨做个简单的复盘,去思考下在那探索的四个月中,为什么大家更青睐于 prm / mcts 路线?为什么沿着这条路线做不出来突破?以及到底有哪些关键点是当时所被忽略的? 阅读全文
posted @ 2025-04-08 17:21 风生水起 阅读(224) 评论(0) 推荐(0)