Agent评测

背景和价值

测试数据量没有一个固定数字,要根据业务复杂度、意图数量、知识库覆盖率和测试精度要求来定。不过可以用经验法则规划:


1️⃣ 按意图数量分配

  • 假设你的系统有 N 个核心意图(例如售后、导购、价格查询、退换货等)
  • 每个意图至少 50–200 条样本用于标准化测试
  • 如果意图复杂、多意图组合较多,建议每种组合 20–50 条样本

2️⃣ 按问题类型分配

问题类型 建议样本量比例 说明
标准化知识库问题 40–50% 精确答案,检验 RAG + LLM 回答准确率
同义/变体问题 20–30% 测试模型语义理解和同义表达能力
多意图问题 10–20% 测试 Coordinator 多意图解析能力
开放式/复杂问题 10–20% 测试拒答、容错和工具调用能力

例如一个中型客服系统,意图数 10 个,总样本量可以 1000–2000 条,覆盖不同问题类型和难度。


3️⃣ 抽样与分层

  • 分层抽样:按意图、问题类型、业务场景分层,保证测试集均衡
  • 边缘场景:对少量特殊或异常问题额外采样,用于测试系统鲁棒性

4️⃣ 迭代优化

  • 初次测试可以先小规模(500–1000 条)验证整体准确率
  • 系统迭代或上线前,再扩充到 2000–5000 条,形成覆盖大部分业务场景的标准测试集
  • 每次模型或 RAG 规则更新,都用同一套测试集做对比,追踪准确率变化

🔹 总结建议

  • 核心意图:50–200 条 / 意图
  • 多意图组合:20–50 条 / 组合
  • 标准化 + 同义 + 复杂问题:按比例分配,总量 1000–2000 条即可初步测试
  • 上线或关键版本:扩展到 2000–5000 条覆盖大部分业务场景

如果你愿意,我可以帮你整理一份 智能客服 Agent 测试数据设计表格,按意图、问题类型、样本量列清楚,直接可以用在简历或项目规划里。

你希望我帮你做吗?

参考资料

posted @ 2025-12-08 11:13  向着朝阳  阅读(11)  评论(0)    收藏  举报