会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
风生水起
善战者,求之于势,不责于人,故能择人而任势。
博客园
首页
新随笔
联系
订阅
管理
2025年7月15日
后训练思考
摘要: SFT和RLHF阶段主要要培养模型的三个能力:(1) 领域内问题的判别能力,对领域外的问题需要能拒识 (2) 基于召回的知识回答问题的能力 (3) 领域内风格对齐的能力。 pretrain 的技术方法正在全面入侵 post training(退火、课程学习、多阶段训练。。。)
阅读全文
posted @ 2025-07-15 16:10 风生水起
阅读(11)
评论(0)
推荐(0)