摘要: 在提升模型强推理能力的努力上,SFT蒸馏和强化学习被社区广泛探索: 直接利用SFT蒸馏可以学习到数据中的推理范式,虽然在推理分数上的表现有所提升,但是更多是去拟合数据中的Pattern, 很难学习到数据背后的数学规律和MetaCoT 强化学习则是通过试错和尝试,鼓励模型在最大化奖励过程中学习到推理背 阅读全文
posted @ 2025-06-13 12:10 iTech 阅读(92) 评论(0) 推荐(0)