Minilm意图识别 最小置信度AB测试
可以把 AB 测试过程拆成场景、设计、执行、评估四个环节,讲得既专业又面试友好。我帮你整理一个清晰的回答思路:
一、测试目标
例:调优 MiniLM 一级意图识别的最小置信度阈值,以在保证准确度 ≥ 业务底线的前提下,最大化自动化率。
-
关键 KPI:
- 准确度(Accuracy / Business Acceptance)
- 自动化率(不走 LLM 的比例)
- 兜底触发率(低置信或多意图走 LLM 的比例)
二、AB 测试设计
-
分组
-
将用户或 query 随机分配到不同 min_confidence 阈值组
-
例如:
- Group A → min_confidence = 0.76
- Group B → min_confidence = 0.80
- Group C → min_confidence = 0.83
-
流量比例一般均等(30% / 30% / 30%),剩余 10% 作为保留或缓冲
-
-
固定其他变量
- margin 保持不变(如 0.05)
- 业务规则、历史上下文处理方式一致
-
指标定义
-
分母 = AB 测试组总 query 数
-
分子 = 经过 MiniLM + LLM 兜底后最终识别正确的 query 数
- 线上快速测试可以用 proxy:总数 − 转人工 − 点踩 − 重复提问
- 关键阈值落地阶段需人工抽样复核
-
三、执行流程
-
灰度部署
- 小比例流量先跑 AB 测试组 → 避免影响全量用户
- 可以通过 AI 网关或流量路由控制灰度比例
-
数据收集
-
记录每条 query:
- MiniLM 判定意图
- 置信度、margin
- 是否兜底 LLM
- 用户行为 proxy:转人工 / 点踩 / 重复提问
- 成交 / 点击 / CTA 等业务指标
-
-
持续监控
-
观察每组 KPI:
- Accuracy / Business Acceptance
- 自动化率
- 兜底触发率
-
四、评估与决策
-
分析 trade-off
- 高 min_confidence → 自动化率低、准确率高
- 低 min_confidence → 自动化率高、可能准确率下降
-
候选阈值选择
- 找到满足准确度 ≥ 业务底线的最大自动化率
- 可结合 proxy 指标趋势确认
-
人工抽样复核
- 抽样 5–10% query 做 ground truth 验证
- 修正 proxy 与真实准确率的偏差
-
落地与上线
- 将最佳 min_confidence 阈值应用到生产
- 继续通过 proxy + 定期抽样监控长期效果
五、面试表述要点
- 数据驱动:阈值选择基于 AB 测试结果,而不是凭经验
- 分组随机 + 流量灰度:保证测试公平且可控风险
- 多指标评估:准确度 + 自动化率 + 兜底触发率
- 闭环:快速 proxy 测试 → 人工抽样验证 → 阈值落地 → 生产监控
💡 总结一句话面试回答示例:
“我会先设计不同 min_confidence 阈值的 AB 测试组,随机分流用户或 query,通过 proxy 或人工复核统计准确率和自动化率,然后在保证业务准确度 ≥ 95% 的前提下,选择能最大化自动化率的阈值,并持续监控生产指标,形成闭环优化。”
我可以帮你画一个MiniLM AB 测试闭环流程图,把灰度分组、数据收集、proxy指标、人工复核、最终阈值落地可视化,非常面试友好。
你希望我画吗?

浙公网安备 33010602011771号