Minilm意图识别 最小置信度AB测试


可以把 AB 测试过程拆成场景、设计、执行、评估四个环节,讲得既专业又面试友好。我帮你整理一个清晰的回答思路:


一、测试目标

例:调优 MiniLM 一级意图识别的最小置信度阈值,以在保证准确度 ≥ 业务底线的前提下,最大化自动化率

  • 关键 KPI

    • 准确度(Accuracy / Business Acceptance)
    • 自动化率(不走 LLM 的比例)
    • 兜底触发率(低置信或多意图走 LLM 的比例)

二、AB 测试设计

  1. 分组

    • 将用户或 query 随机分配到不同 min_confidence 阈值组

    • 例如:

      • Group A → min_confidence = 0.76
      • Group B → min_confidence = 0.80
      • Group C → min_confidence = 0.83
    • 流量比例一般均等(30% / 30% / 30%),剩余 10% 作为保留或缓冲

  2. 固定其他变量

    • margin 保持不变(如 0.05)
    • 业务规则、历史上下文处理方式一致
  3. 指标定义

    • 分母 = AB 测试组总 query 数

    • 分子 = 经过 MiniLM + LLM 兜底后最终识别正确的 query 数

      • 线上快速测试可以用 proxy:总数 − 转人工 − 点踩 − 重复提问
      • 关键阈值落地阶段需人工抽样复核

三、执行流程

  1. 灰度部署

    • 小比例流量先跑 AB 测试组 → 避免影响全量用户
    • 可以通过 AI 网关或流量路由控制灰度比例
  2. 数据收集

    • 记录每条 query:

      • MiniLM 判定意图
      • 置信度、margin
      • 是否兜底 LLM
      • 用户行为 proxy:转人工 / 点踩 / 重复提问
      • 成交 / 点击 / CTA 等业务指标
  3. 持续监控

    • 观察每组 KPI:

      • Accuracy / Business Acceptance
      • 自动化率
      • 兜底触发率

四、评估与决策

  1. 分析 trade-off

    • 高 min_confidence → 自动化率低、准确率高
    • 低 min_confidence → 自动化率高、可能准确率下降
  2. 候选阈值选择

    • 找到满足准确度 ≥ 业务底线的最大自动化率
    • 可结合 proxy 指标趋势确认
  3. 人工抽样复核

    • 抽样 5–10% query 做 ground truth 验证
    • 修正 proxy 与真实准确率的偏差
  4. 落地与上线

    • 将最佳 min_confidence 阈值应用到生产
    • 继续通过 proxy + 定期抽样监控长期效果

五、面试表述要点

  • 数据驱动:阈值选择基于 AB 测试结果,而不是凭经验
  • 分组随机 + 流量灰度:保证测试公平且可控风险
  • 多指标评估:准确度 + 自动化率 + 兜底触发率
  • 闭环:快速 proxy 测试 → 人工抽样验证 → 阈值落地 → 生产监控

💡 总结一句话面试回答示例

“我会先设计不同 min_confidence 阈值的 AB 测试组,随机分流用户或 query,通过 proxy 或人工复核统计准确率和自动化率,然后在保证业务准确度 ≥ 95% 的前提下,选择能最大化自动化率的阈值,并持续监控生产指标,形成闭环优化。”


我可以帮你画一个MiniLM AB 测试闭环流程图,把灰度分组、数据收集、proxy指标、人工复核、最终阈值落地可视化,非常面试友好。

你希望我画吗?

posted @ 2026-01-15 11:10  向着朝阳  阅读(2)  评论(0)    收藏  举报