会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
iTech's Blog
持续集成微信公众号cicdops
www.cicdops.com
博客园
首页
新随笔
联系
订阅
管理
2025年6月13日
SFT蒸馏和强化学习
摘要: 在提升模型强推理能力的努力上,SFT蒸馏和强化学习被社区广泛探索: 直接利用SFT蒸馏可以学习到数据中的推理范式,虽然在推理分数上的表现有所提升,但是更多是去拟合数据中的Pattern, 很难学习到数据背后的数学规律和MetaCoT 强化学习则是通过试错和尝试,鼓励模型在最大化奖励过程中学习到推理背
阅读全文
posted @ 2025-06-13 12:10 iTech
阅读(92)
评论(0)
推荐(0)
公告