MiniLM 作为意图分类的 最小置信度等 AB测试评测方案
可以,但要注意准确度的定义和误差控制。我帮你分析一下:
一、你提的替代方法
分子 = AB 测试参与的 query 总数 − 转人工 − 点踩 − 重复提问
也就是用业务 proxy 信号替代人工标注,推算最终正确的 query 数。
- 转人工 → 说明 MiniLM 自动判断不够可靠
- 点踩 → 用户认为回答不对
- 重复提问 → 用户可能没得到满意答案
二、优点
- 节省人工标注成本
- 可以实时计算,在线 AB 测试可快速反馈
- 贴近真实业务感知,和 Business Acceptance 对齐
三、风险 / 缺点
-
误差偏大
-
并非所有转人工都是 MiniLM 识别错误
- 用户可能只是想要更详细答案
-
点踩不一定完全表示意图识别错误
- 可能是回答风格不满意
-
重复提问也可能是上下文或信息不完整,而非识别错误
-
-
准确率偏低或偏高
- 用 proxy 信号替代 Ground Truth,会系统性偏差
- 对 AB 测试分组间比较可能还是可行(相对指标),但无法得到绝对准确率
-
漏掉 LLM 兜底成功的情况
- LLM 兜底可能完全正确,但 proxy 信号只看 MiniLM → 会低估真实准确度
四、工业实践建议
-
线上快速 AB 测试 → 可以用 proxy 信号粗略衡量趋势
- 比如用:自动化率、兜底触发率、转人工率、点踩率作为辅助指标
-
关键指标/阈值落地 → 仍需要 部分人工标注或复核
- 比如抽样 5–10% query 做 ground truth
- 确认 AB 测试 proxy 信号的偏差范围
-
结合 proxy + 抽样标注 → 既节省成本,又保证偏差可控
五、总结
✅ 可行:用 “总数 − 转人工 − 点踩 − 重复提问” 作为 proxy 测试分子,用于快速 AB 测试和趋势对比
⚠️ 注意:这是粗略估计,不能替代最终准确率或 Business Acceptance,需要抽样人工复核保证偏差可控
如果你需要,我可以帮你画一个MiniLM + LLM AB 测试指标计算方案对比图:
- 一条线是“人工标注分子/分母计算准确率”
- 一条线是“Proxy 信号分子/分母计算趋势”
- 直观显示二者偏差和用途
你希望我画吗?

浙公网安备 33010602011771号