2025 年 6月 13 日随笔档案 - iTech

2025年6月13日

摘要：在提升模型强推理能力的努力上，SFT蒸馏和强化学习被社区广泛探索：直接利用SFT蒸馏可以学习到数据中的推理范式，虽然在推理分数上的表现有所提升，但是更多是去拟合数据中的Pattern, 很难学习到数据背后的数学规律和MetaCoT 强化学习则是通过试错和尝试，鼓励模型在最大化奖励过程中学习到推理背阅读全文

posted @ 2025-06-13 12:10 iTech 阅读(116) 评论(0) 推荐(0)

iTech's Blog

持续集成微信公众号cicdops www.cicdops.com

公告