模型调优临时笔记
[TOC]
差评打标
bert 1万起,但是样本只有1000+
使用 P-tuning小样本算法, 进行多标签分类
bert基座+P-tuning
使用模型预训练、损失函数优化、阈值搜索等技术手段提升模型效果
多标签使用 正负样本,损失函数 -- shoujianming 多标签
现在做法:
使用大模型打标,会产生大量的样本
1 使用大模型生成
2 微调大模型,来分类
要提升更好的精度:需要更多的数据
提出了一种相对位置编码,可以加快模型预训练收敛的速度:
深度搜索
思考过程比react 精度更高。
1 让大模型拆解问题,需要做微调让大模型拆的好
xxx公司的报销流程
了解是什么公司的报销流程
1 prompt 配置公司的名称,
2 微调大模型
3 通过userid判断是某个公司的,
小模型的槽位,可以更好识别语义。
为什么是微调:搜索到文本块不稳定,幻觉
什么知识在模型缺失,需要微调
有监督的微调
换工作原因
NLP被大模型淘汰
领域内大模型训练。
教育精准知识不行
SFT 监督训练 -一般微调
测试:
RL 强化学习 -
DPU: 直接偏好优化。 每个问题有2个答案,一个正确的,一个错误。
如果错的多, 模型自动调优
PPU :近似优化
参考模型
奖励模型:
策略模型:给出答案
评估模型
不用RAG,用户可能说错了。
难点:
1 数量 - 覆盖场景
2 质量
准确度:千问,
90+%
大模型 有一定的幻觉和随机性
解决: 先过大模型 结果给到 小模型(7b)。小模型判断是错的, 让大模型再生成一次。
open milus

浙公网安备 33010602011771号