2025 年 9月 8 日随笔档案 - deephub

2025年9月8日

摘要：监督微调（SFT）基本上是现在训练大模型时必走的路。不管你要让模型干什么，先用 SFT 让它学会基本的指令跟随和对话能力，然后再通过 PPO 或者 GRPO 这些强化学习方法进一步调优。但 SFT 有个老毛病：容易过拟合。模型会死记硬背训练数据，泛化能力变差。更要命的是，经过 SFT 训练的模型在阅读全文

posted @ 2025-09-08 21:20 deephub 阅读(16) 评论(0) 推荐(0)

deephub

overfit深度学习

公告