MiniLM 作为意图分类的最小置信度等 AB测试评测方案

可以，但要注意准确度的定义和误差控制。我帮你分析一下：

一、你提的替代方法

分子 = AB 测试参与的 query 总数 − 转人工 − 点踩 − 重复提问

也就是用业务 proxy 信号替代人工标注，推算最终正确的 query 数。

误差偏大
- 并非所有转人工都是 MiniLM 识别错误
  - 用户可能只是想要更详细答案
- 点踩不一定完全表示意图识别错误
  - 可能是回答风格不满意
- 重复提问也可能是上下文或信息不完整，而非识别错误
准确率偏低或偏高
- 用 proxy 信号替代 Ground Truth，会系统性偏差
- 对 AB 测试分组间比较可能还是可行（相对指标），但无法得到绝对准确率
漏掉 LLM 兜底成功的情况
- LLM 兜底可能完全正确，但 proxy 信号只看 MiniLM → 会低估真实准确度

线上快速 AB 测试 → 可以用 proxy 信号粗略衡量趋势
- 比如用：自动化率、兜底触发率、转人工率、点踩率作为辅助指标
关键指标/阈值落地 → 仍需要 部分人工标注或复核
- 比如抽样 5–10% query 做 ground truth
- 确认 AB 测试 proxy 信号的偏差范围
结合 proxy + 抽样标注 → 既节省成本，又保证偏差可控

✅ 可行：用 “总数 − 转人工 − 点踩 − 重复提问” 作为 proxy 测试分子，用于快速 AB 测试和趋势对比
⚠️ 注意：这是粗略估计，不能替代最终准确率或 Business Acceptance，需要抽样人工复核保证偏差可控

如果你需要，我可以帮你画一个MiniLM + LLM AB 测试指标计算方案对比图：

你希望我画吗？

posted @ 2026-01-15 10:58 向着朝阳阅读(0) 评论(0) 收藏举报

刷新页面返回顶部