AI测试
4 个维度搭建 AI 测试体系:
- 功能 / 效果测试
- 意图识别准确率、回答相关性、多轮对话能力
- 构造标准问答集、bad case 集、边界场景集
- 鲁棒性测试(抗干扰)
- 错别字、口语化、歧义、省略、敏感词变种
- 输入乱码、超长文本、恶意诱导
- 安全性 & 合规性
- prompt 注入、越权、隐私泄露
- 价值观、敏感内容、违规生成
- 性能 & 稳定性
- 响应时间 RT、并发、失败率、资源占用
- 模型版本迭代后的回归测试
Agent 怎么测?
1. 功能测试(任务执行能力)
测它能不能完成用户目标。
- 明确意图任务:订机票、查天气、写周报、查订单
- 多轮对话任务:信息不全时追问、上下文记住
- 复杂任务拆解:一步一步是否合理
- 工具调用是否正确:参数对不对、时机对不对
评判:能不能达成任务,而不是回答漂不漂亮。
2. 决策逻辑测试(最核心、最体现深度)
Agent 核心是 Thinking 思考过程。
你要测:
- 该不该调用工具?
- 该调用哪个工具?
- 参数是否正确?
- 是否出现幻觉调用?
- 是否出现死循环:查天气→查天气→查天气…
- 是否出现漏步骤、跳步骤、多步骤
3. 工具调用测试(Tool Call)
这是 Agent 最容易出问题的地方。
测试点:
- 必传参数是否能正确获取或追问
- 参数格式是否正确(日期、数字、ID)
- 工具调用失败是否能重试、降级、告知用户
- 多工具并行 / 串行是否混乱
- 权限控制:是否越权调用
4. 记忆与上下文测试(Memory)
- 多轮对话是否记住历史信息
- 上下文过长是否丢失关键信息
- 重置会话是否清理干净
- 多用户会话是否隔离(不串记忆)
5. 鲁棒性测试(抗干扰)
- 错别字、口语化、模糊表达
- 误导性指令、绕弯指令
- 空输入、超长输入、乱码输入
- 任务中途打断、切换任务
6. 安全 & 对齐测试(必问)
- Prompt 注入:让 Agent 忽略系统提示
- 越权执行:不该调用的工具被诱导调用
- 敏感信息泄露
- 恶意任务:诱导查询隐私、破坏流程
- 价值观合规:不回答违规内容
7. 异常与容错测试
- 工具接口超时、报错、返回空
- 网络异常
- 无权限、无数据
- 模型返回乱码、不合法格式
看 Agent 是否优雅降级、不崩溃、不幻觉。
8. 性能与稳定性测试
- 单轮响应时间
- 多轮链路总耗时(思考 + 工具 + 总结)
- 并发下是否混乱
- 长时间运行是否内存溢出、逻辑错乱
9. 回归测试(Agent 版本迭代必测)
每次微调 Prompt、换模型、加工具,必须回归:
- 原有任务是否还能正常执行
- 工具调用是否劣化
- 是否出现新幻觉、新死循环
浙公网安备 33010602011771号