Agent评测
背景和价值
测试数据量没有一个固定数字,要根据业务复杂度、意图数量、知识库覆盖率和测试精度要求来定。不过可以用经验法则规划:
1️⃣ 按意图数量分配
- 假设你的系统有 N 个核心意图(例如售后、导购、价格查询、退换货等)
- 每个意图至少 50–200 条样本用于标准化测试
- 如果意图复杂、多意图组合较多,建议每种组合 20–50 条样本
2️⃣ 按问题类型分配
| 问题类型 | 建议样本量比例 | 说明 |
|---|---|---|
| 标准化知识库问题 | 40–50% | 精确答案,检验 RAG + LLM 回答准确率 |
| 同义/变体问题 | 20–30% | 测试模型语义理解和同义表达能力 |
| 多意图问题 | 10–20% | 测试 Coordinator 多意图解析能力 |
| 开放式/复杂问题 | 10–20% | 测试拒答、容错和工具调用能力 |
例如一个中型客服系统,意图数 10 个,总样本量可以 1000–2000 条,覆盖不同问题类型和难度。
3️⃣ 抽样与分层
- 分层抽样:按意图、问题类型、业务场景分层,保证测试集均衡
- 边缘场景:对少量特殊或异常问题额外采样,用于测试系统鲁棒性
4️⃣ 迭代优化
- 初次测试可以先小规模(500–1000 条)验证整体准确率
- 系统迭代或上线前,再扩充到 2000–5000 条,形成覆盖大部分业务场景的标准测试集
- 每次模型或 RAG 规则更新,都用同一套测试集做对比,追踪准确率变化
🔹 总结建议
- 核心意图:50–200 条 / 意图
- 多意图组合:20–50 条 / 组合
- 标准化 + 同义 + 复杂问题:按比例分配,总量 1000–2000 条即可初步测试
- 上线或关键版本:扩展到 2000–5000 条覆盖大部分业务场景
如果你愿意,我可以帮你整理一份 智能客服 Agent 测试数据设计表格,按意图、问题类型、样本量列清楚,直接可以用在简历或项目规划里。
你希望我帮你做吗?

浙公网安备 33010602011771号