SFT蒸馏和强化学习
在提升模型强推理能力的努力上,SFT蒸馏和强化学习被社区广泛探索:
直接利用SFT蒸馏可以学习到数据中的推理范式,虽然在推理分数上的表现有所提升,但是更多是去拟合数据中的Pattern, 很难学习到数据背后的数学规律和MetaCoT
强化学习则是通过试错和尝试,鼓励模型在最大化奖励过程中学习到推理背后的规律,获得的泛化性和推理表现上界更高.
SFT 主要负责记忆而很难进行OOD泛化,基于ORM的RL泛化能力较好.
SFT规范模型输出格式,使得后续的RL可以获得更高的收益.
Deepseek from V3 to R1: