随笔档案「2025年7月15日」：后训练思考 ... - 风生水起

2025年7月15日

摘要： SFT和RLHF阶段主要要培养模型的三个能力:(1) 领域内问题的判别能力，对领域外的问题需要能拒识 (2) 基于召回的知识回答问题的能力 (3) 领域内风格对齐的能力。 pretrain 的技术方法正在全面入侵 post training（退火、课程学习、多阶段训练。。。）阅读全文

posted @ 2025-07-15 16:10 风生水起阅读(15) 评论(0) 推荐(0)