后训练思考

SFT和RLHF阶段主要要培养模型的三个能力:
(1) 领域内问题的判别能力，对领域外的问题需要能拒识
(2) 基于召回的知识回答问题的能力
(3) 领域内风格对齐的能力。

pretrain 的技术方法正在全面入侵 post training（退火、课程学习、多阶段训练。。。）

posted on 2025-07-15 16:10 风生水起阅读(23) 评论(0) 收藏举报

刷新页面返回顶部