会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
第七子007
博客园
首页
新随笔
联系
订阅
管理
2025年6月30日
LLM大模型:next token reasoning成为下个阶段LLM的训练范式?
摘要: 目前LLM的训练范式不外乎这么几步:pre-train、SFT、RL,每个步骤都有自己的作用,比如: pre-train:把训练预料的知识压缩到neural的结点 SFT:初步学会问答 RL:和人类的偏好对齐 经过上述三步骤后,LLM的效果会有很大提升,然鹅还是摆脱不了目前的一大困境:本质还是个st
阅读全文
posted @ 2025-06-30 14:52 第七子007
阅读(117)
评论(0)
推荐(0)
公告