会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deeplearningmachine
博客园
首页
新随笔
联系
管理
订阅
2025年1月28日
DeepSeek-R1:开源Top推理模型的实现细节、使用与复现
摘要: 核心观点 ● 直接用强化学习就可以让模型获得显著的推理能力,说明并不一定需要SFT才行。 ● 强化学习并不一定需要复杂的奖励模型,使用简单的规则反而取得意想不到的效果。 ● 通过知识蒸馏让小模型一定程度上也有推理能力,甚至在某些场景下的表现超过了Top模型,比直接在小模型上进行强化学习更好。 Dee
阅读全文
posted @ 2025-01-28 10:42 深度学习机器
阅读(4348)
评论(0)
推荐(0)
公告