Loading

摘要: 总结:各方法的典型关联(以大语言模型为例) Pre-Training:先让模型学“通识知识”(如语言、世界知识)。 Supervised Fine-Tuning (SFT):用标注数据让模型学“任务基本模式”(如指令遵循)。 Reward Modeling:训练模型学“人类偏好标准”(如什么回答更优 阅读全文
posted @ 2025-10-20 20:52 SaTsuki26681534 阅读(8) 评论(0) 推荐(0)
摘要: 四种微调方式 Full 对预训练模型的所有参数进行微调,让模型从底层到顶层的所有参数都参与更新,彻底适配下游任务 优点:模型对任务的适配性最强,在数据充足、任务复杂时效果通常最优 缺点: 资源消耗极大(千亿参数模型需高端 GPU 集群,训练时长以天 / 周计); 数据量不足时极易过拟合(模型死记训练 阅读全文
posted @ 2025-10-20 20:32 SaTsuki26681534 阅读(16) 评论(0) 推荐(0)