大模型微调
背景
为什么要微调:领域内大模型训练。大模型预训练的知识不够,幻觉
为什么不能直接用RAG,因为用户问题可能就问错了。
影响大模型微调的效果:样本的量(覆盖的场景全面性),质量。
SFT 监督训练 -一般微调
步骤一 :准备样本数据
挑战:需要提供大量精确的样本数据。(万级)
解决:基于客户收集精准数据(可能是千级别)通过大模型打标生成大量的样本数据
微调大模型
把样本输入给大模型(query和正确的回答)
效果测试
准备测试样本,以填空题的形式让大模型回答
如何提升精度
问题1:大模型 有一定的幻觉和随机性。解决: 先过大模型 结果给到 小模型(7b)。小模型判断是错的, 让大模型再生成一次。
RL 强化学习 -
DPU: 直接偏好优化。 每个问题有2个答案,一个正确的,一个错误。
如果错的多, 模型自动调优
PPU :近似优化
参考模型
奖励模型:
策略模型:给出答案
评估模型

浙公网安备 33010602011771号