Minilm意图识别最小置信度AB测试

可以把 AB 测试过程拆成场景、设计、执行、评估四个环节，讲得既专业又面试友好。我帮你整理一个清晰的回答思路：

一、测试目标

例：调优 MiniLM 一级意图识别的最小置信度阈值，以在保证准确度 ≥ 业务底线的前提下，最大化自动化率。

关键 KPI：
- 准确度（Accuracy / Business Acceptance）
- 自动化率（不走 LLM 的比例）
- 兜底触发率（低置信或多意图走 LLM 的比例）

分组
- 将用户或 query 随机分配到不同 min_confidence 阈值组
- 例如：
  - Group A → min_confidence = 0.76
  - Group B → min_confidence = 0.80
  - Group C → min_confidence = 0.83
- 流量比例一般均等（30% / 30% / 30%），剩余 10% 作为保留或缓冲
固定其他变量
- margin 保持不变（如 0.05）
- 业务规则、历史上下文处理方式一致
指标定义
- 分母 = AB 测试组总 query 数
- 分子 = 经过 MiniLM + LLM 兜底后最终识别正确的 query 数
  - 线上快速测试可以用 proxy：总数 − 转人工 − 点踩 − 重复提问
  - 关键阈值落地阶段需人工抽样复核

灰度部署
- 小比例流量先跑 AB 测试组 → 避免影响全量用户
- 可以通过 AI 网关或流量路由控制灰度比例
数据收集
- 记录每条 query：
  - MiniLM 判定意图
  - 置信度、margin
  - 是否兜底 LLM
  - 用户行为 proxy：转人工 / 点踩 / 重复提问
  - 成交 / 点击 / CTA 等业务指标
持续监控
- 观察每组 KPI：
  - Accuracy / Business Acceptance
  - 自动化率
  - 兜底触发率

分析 trade-off
- 高 min_confidence → 自动化率低、准确率高
- 低 min_confidence → 自动化率高、可能准确率下降
候选阈值选择
- 找到满足准确度 ≥ 业务底线的最大自动化率
- 可结合 proxy 指标趋势确认
人工抽样复核
- 抽样 5–10% query 做 ground truth 验证
- 修正 proxy 与真实准确率的偏差
落地与上线
- 将最佳 min_confidence 阈值应用到生产
- 继续通过 proxy + 定期抽样监控长期效果

💡 总结一句话面试回答示例：

“我会先设计不同 min_confidence 阈值的 AB 测试组，随机分流用户或 query，通过 proxy 或人工复核统计准确率和自动化率，然后在保证业务准确度 ≥ 95% 的前提下，选择能最大化自动化率的阈值，并持续监控生产指标，形成闭环优化。”

我可以帮你画一个MiniLM AB 测试闭环流程图，把灰度分组、数据收集、proxy指标、人工复核、最终阈值落地可视化，非常面试友好。

你希望我画吗？

posted @ 2026-01-15 11:10 向着朝阳阅读(2) 评论(0) 收藏举报

刷新页面返回顶部