微调池的数据来源
对,你说的完全正确。用户改善模型的效果,核心依赖高质量训练样本池子,而训练池的样本来源是多渠道的,不只是生产会话,还包括各种特殊事件。
我帮你整理一下专业的来源分类:
一、训练池样本来源
| 来源类型 | 说明 | 典型用途 |
|---|---|---|
| 生产会话抽样 | 正常用户对话经过埋点和抽样后的 query + label | 常规微调,提升模型理解能力 |
| 高风险事件/质检池数据 | 质检池标注的高风险会话,如高客单、错误承诺、敏感操作 | 训练模型避免错误回答,提高可靠性 |
| 用户投诉/反馈 | 用户主动反馈的错误回答、误导或不满意的对话 | 优化模型对负面案例的处理,防止复现错误 |
| 转人工记录 | 系统自动或人工升级的对话 | 用于训练模型识别“需要转人工”的场景 |
| 异常行为会话 | 系统检测到重复提问、异常点击、低自动化率的会话 | 用于提升模型对异常交互的处理能力 |
| 人工标注 / 外部数据 | 专门采集的业务问答样本或第三方数据集 | 填充低频意图、冷启动场景 |
| AB 测试/策略实验数据 | 不同策略版本下的用户交互数据 | 优化模型在策略变更下的适应性 |
二、关键原则
-
高风险事件优先
- 比如用户投诉、错误承诺、敏感操作,必须 100% 过审才能入训练池
-
抽样低风险数据
- 大量普通会话可以抽样入训练池,降低人工成本
-
多来源融合
- 生产会话 + 投诉/转人工 + 人工标注 → 提供多样化训练样本
- 避免模型只擅长“常规问答”,忽略异常或边缘场景
数据分布
明白了,你想了解微调训练池中各类样本的典型比例。实际上,这个比例会根据业务场景、模型阶段和数据量有所不同,但在工业实践中有一些经验指导值,我帮你总结如下:
训练池样本来源及参考比例(工业经验)
| 来源类型 | 说明 | 参考占比 | 备注 |
|---|---|---|---|
| 模型错误 / 高风险事件 | 用户投诉、高客单错误承诺、敏感操作、质检池标注的失败回答 | 30–50% | 优先修复模型缺陷和业务风险 |
| 生产会话抽样 | 正常用户对话、随机抽样 | 30–40% | 保持覆盖度和鲁棒性,避免过拟合错误样本 |
| 转人工会话 | 系统自动或用户升级到人工客服的对话 | 10–15% | 训练模型识别需要转人工的场景 |
| 异常行为 / 异常交互 | 重复提问、低自动化率、异常点击等 | 5–10% | 增强模型对异常场景的处理能力 |
| 人工标注 / 外部数据 | 冷启动场景、低频意图、第三方业务问答 | 5–10% | 补充低频场景或业务新领域 |
说明:比例仅供参考,可根据模型阶段调整
- 新模型上线阶段:高风险样本比例可提高至 50–60%,保证尽快修复明显问题
- 稳定阶段:生产抽样占比增加,保证覆盖和鲁棒性
实务经验总结
- 优先保证高风险/错误样本足够训练 → 快速修复缺陷
- 保持生产抽样的覆盖度 → 避免微调后忘记常规能力
- 低频/异常样本 → 适量加入,保证模型对边缘场景有一定适应性
- 可根据业务场景动态调整 → 比如高客单业务、敏感话术或大型节假日时可提高高风险样本占比
如果你愿意,我可以帮你画一张训练池样本来源比例饼图,面试时用图一眼就能说明数据构成,很直观。
你希望我画吗?

浙公网安备 33010602011771号