SFT和RLHF阶段主要要培养模型的三个能力:
(1) 领域内问题的判别能力,对领域外的问题需要能拒识 
(2) 基于召回的知识回答问题的能力 
(3) 领域内风格对齐的能力。

pretrain 的技术方法正在全面入侵 post training(退火、课程学习、多阶段训练。。。)

posted on 2025-07-15 16:10  风生水起  阅读(11)  评论(0)    收藏  举报