模型调优临时笔记

[TOC]

差评打标

bert 1万起，但是样本只有1000+
使用 P-tuning小样本算法，进行多标签分类

bert基座+P-tuning

使用模型预训练、损失函数优化、阈值搜索等技术手段提升模型效果
多标签使用正负样本，损失函数 -- shoujianming 多标签

现在做法：
使用大模型打标，会产生大量的样本
1 使用大模型生成
2 微调大模型，来分类

要提升更好的精度：需要更多的数据

提出了一种相对位置编码，可以加快模型预训练收敛的速度：

深度搜索

思考过程比react 精度更高。

1 让大模型拆解问题，需要做微调让大模型拆的好

xxx公司的报销流程

了解是什么公司的报销流程
1 prompt 配置公司的名称，
2 微调大模型

3 通过userid判断是某个公司的，

小模型的槽位，可以更好识别语义。

为什么是微调：搜索到文本块不稳定，幻觉

什么知识在模型缺失，需要微调
有监督的微调

换工作原因

NLP被大模型淘汰

领域内大模型训练。
教育精准知识不行
SFT 监督训练 -一般微调
测试：
RL 强化学习 -
DPU: 直接偏好优化。每个问题有2个答案，一个正确的，一个错误。

如果错的多，模型自动调优

PPU ：近似优化
参考模型
奖励模型：
策略模型：给出答案
评估模型
不用RAG，用户可能说错了。

难点：
1 数量 - 覆盖场景
2 质量

准确度：千问，
90+%
大模型有一定的幻觉和随机性

解决：先过大模型结果给到小模型（7b）。小模型判断是错的，让大模型再生成一次。

open milus

posted @ 2025-04-23 10:26 向着朝阳阅读(27) 评论(0) 收藏举报

刷新页面返回顶部