大模型微调

背景

为什么要微调:领域内大模型训练。大模型预训练的知识不够,幻觉
为什么不能直接用RAG,因为用户问题可能就问错了。

影响大模型微调的效果:样本的量(覆盖的场景全面性),质量。

SFT 监督训练 -一般微调

步骤一 :准备样本数据

挑战:需要提供大量精确的样本数据。(万级)
解决:基于客户收集精准数据(可能是千级别)通过大模型打标生成大量的样本数据

微调大模型

把样本输入给大模型(query和正确的回答)

效果测试

准备测试样本,以填空题的形式让大模型回答

如何提升精度

问题1:大模型 有一定的幻觉和随机性。解决: 先过大模型 结果给到 小模型(7b)。小模型判断是错的, 让大模型再生成一次。

RL 强化学习 -

DPU: 直接偏好优化。 每个问题有2个答案,一个正确的,一个错误。

如果错的多, 模型自动调优

PPU :近似优化

参考模型
奖励模型:
策略模型:给出答案
评估模型

参考资料

posted @ 2025-04-26 11:44  向着朝阳  阅读(31)  评论(0)    收藏  举报