SFT和RLHF阶段主要要培养模型的三个能力:(1) 领域内问题的判别能力,对领域外的问题需要能拒识 (2) 基于召回的知识回答问题的能力 (3) 领域内风格对齐的能力。
pretrain 的技术方法正在全面入侵 post training(退火、课程学习、多阶段训练。。。)