模型调优临时笔记

[TOC]

差评打标

bert 1万起,但是样本只有1000+
使用 P-tuning小样本算法, 进行多标签分类

bert基座+P-tuning

使用模型预训练、损失函数优化、阈值搜索等技术手段提升模型效果
多标签使用 正负样本,损失函数 -- shoujianming 多标签

现在做法:
使用大模型打标,会产生大量的样本
1 使用大模型生成
2 微调大模型,来分类

要提升更好的精度:需要更多的数据

提出了一种相对位置编码,可以加快模型预训练收敛的速度:

深度搜索

思考过程比react 精度更高。

1 让大模型拆解问题,需要做微调让大模型拆的好

xxx公司的报销流程

了解是什么公司的报销流程
1 prompt 配置公司的名称,
2 微调大模型

3 通过userid判断是某个公司的,

小模型的槽位,可以更好识别语义。

为什么是微调:搜索到文本块不稳定,幻觉

什么知识在模型缺失,需要微调
有监督的微调


换工作原因

NLP被大模型淘汰

领域内大模型训练。
教育精准知识不行
SFT 监督训练 -一般微调
测试:
RL 强化学习 -
DPU: 直接偏好优化。 每个问题有2个答案,一个正确的,一个错误。

如果错的多, 模型自动调优

PPU :近似优化
参考模型
奖励模型:
策略模型:给出答案
评估模型
不用RAG,用户可能说错了。

难点:
1 数量 - 覆盖场景
2 质量

准确度:千问,
90+%
大模型 有一定的幻觉和随机性

解决: 先过大模型 结果给到 小模型(7b)。小模型判断是错的, 让大模型再生成一次。

open milus

posted @ 2025-04-23 10:26  向着朝阳  阅读(24)  评论(0)    收藏  举报