智能客服微调数据准备
目录
原则
复用现有意图分类样本
一条文本同时标注意图、phase、action + 核心实体
减少数据采集和标注成本
好的,我帮你整理一份系统化的智能客服(带销售能力)生产级 LoRA 微调数据准备总结,包含意图、phase、action、实体抽取,以及数据量和复用策略。
智能客服(带销售能力)LoRA 微调数据准备总结
Step 0:明确训练目标
-
主要任务:
- 意图分类(单/多标签)
- Phase 识别(如咨询/决策/售后)
- Action 识别(每个 function call 对应一个 action,50~80 个)
- 实体抽取(如产品名、时间、数量等)
-
辅助任务:
- RAG 前置过滤的实体抽取(低置信度触发 LLM 兜底)
-
数据格式:
- 文本 + 对应任务标签
- 核心:一条文本可同时标注意图、phase、action、实体
-
上下文考虑:
- 若任务为单轮意图 / action / phase → 无需多轮上下文
- 多轮销售对话或复杂决策阶段 → 需保留对话上下文
Step 1:核心数据准备
1️⃣ 意图分类
-
核心意图:
- 每个意图 200~500 条
- 占总数据量 60~70%
-
长尾意图:
- 每个意图 20~50 条
- 占总数据量 15~20%
-
噪声 / 口语:
- 5~10%,提升鲁棒性
-
样本复用:
- 样本可同时标注 phase、action、实体
2️⃣ Phase 识别
- 每个 phase 覆盖 200~300 条
- 与意图分类样本复用
3️⃣ Action 识别
-
核心 action(高频):
- 100~150 条 / action
- 50~80 个 function call
-
低频 /边界 action:
- 20~50 条 / action
-
样本复用:可同时标注意图 / phase / 实体
4️⃣ 实体抽取
-
核心实体:
- 每个实体 50~200 条(高频实体)
-
长尾 /低频实体:
- 10~50 条 / 实体
-
组合 / 多实体:
- 50 条覆盖常见组合
-
噪声 / 口语:
- 5~10%
-
复用策略:
- 复用意图/phase/action 样本
- 低置信度触发场景可额外收集 50~100 条
Step 2:数据量估算(单场景)
| 任务 | 样本量 | 备注 |
|---|---|---|
| 意图分类 | 3000~4000 | 核心 + 长尾 + 噪声 |
| Phase | 1000~1500 | 与意图复用 |
| Action | 5000~12,000 | 核心 50~80 个 function call |
| 实体抽取 | 400~500 | 核心 + 长尾 + 多实体组合 |
| 总量(复用后) | 7000~16,000 | 单场景覆盖全部任务 |
核心思路:样本复用极大降低标注成本,保证生产级微调数据量合理。
Step 3:数据策略和原则
-
高频优先:先覆盖高频意图 / phase / action / 核心实体
-
低频 / 长尾:少量覆盖 + 上线后日志回流增量训练
-
噪声 / 口语:少量加入,提高鲁棒性
-
样本复用:
- 一条文本可同时标注多任务标签
- 控制总数据量,不必为每个任务单独采集样本
-
小样本实验可行:
- 少量样本(200~500 条)可用于快速 LoRA 验证
- 重点观察 loss / F1 曲线,而非绝对指标
-
实体抽取在低置信度场景触发:
- 核心实体复用意图分类样本
- 边界 /低置信度样本可额外收集 50~100 条
Step 4:总结
- 总原则:先保证核心业务覆盖,高频优先 + 样本复用
- 数据量控制:单场景 LoRA 微调总样本量约 7000~16,000 条,依核心 action 数量而定
- 增量优化:上线后收集低频/边界样本进行回流训练
- 实验策略:小样本可验证 LoRA rank、dropout、lr 等超参,保证生产环境微调可行
如果你愿意,我可以帮你画一张 可视化的数据准备结构图,直观展示:
- 核心意图 / phase / action / 实体
- 长尾 / 噪声样本比例
- 样本复用关系
- 总样本量估算
这样面试或汇报时,一眼就能理解整个生产级微调数据准备策略。
你希望我画吗?

浙公网安备 33010602011771号