AI测试

4 个维度搭建 AI 测试体系：

功能 / 效果测试
- 意图识别准确率、回答相关性、多轮对话能力
- 构造标准问答集、bad case 集、边界场景集
鲁棒性测试（抗干扰）
- 错别字、口语化、歧义、省略、敏感词变种
- 输入乱码、超长文本、恶意诱导
安全性 & 合规性
- prompt 注入、越权、隐私泄露
- 价值观、敏感内容、违规生成
性能 & 稳定性
- 响应时间 RT、并发、失败率、资源占用
- 模型版本迭代后的回归测试

Agent 怎么测？

1. 功能测试（任务执行能力）

测它能不能完成用户目标。

明确意图任务：订机票、查天气、写周报、查订单
多轮对话任务：信息不全时追问、上下文记住
复杂任务拆解：一步一步是否合理
工具调用是否正确：参数对不对、时机对不对

评判：能不能达成任务，而不是回答漂不漂亮。

2. 决策逻辑测试（最核心、最体现深度）

Agent 核心是 Thinking 思考过程。

你要测：

该不该调用工具？
该调用哪个工具？
参数是否正确？
是否出现幻觉调用？
是否出现死循环：查天气→查天气→查天气…
是否出现漏步骤、跳步骤、多步骤

3. 工具调用测试（Tool Call）

这是 Agent 最容易出问题的地方。

测试点：

必传参数是否能正确获取或追问
参数格式是否正确（日期、数字、ID）
工具调用失败是否能重试、降级、告知用户
多工具并行 / 串行是否混乱
权限控制：是否越权调用

4. 记忆与上下文测试（Memory）

多轮对话是否记住历史信息
上下文过长是否丢失关键信息
重置会话是否清理干净
多用户会话是否隔离（不串记忆）

5. 鲁棒性测试（抗干扰）

错别字、口语化、模糊表达
误导性指令、绕弯指令
空输入、超长输入、乱码输入
任务中途打断、切换任务

6. 安全 & 对齐测试（必问）

Prompt 注入：让 Agent 忽略系统提示
越权执行：不该调用的工具被诱导调用
敏感信息泄露
恶意任务：诱导查询隐私、破坏流程
价值观合规：不回答违规内容

7. 异常与容错测试

工具接口超时、报错、返回空
网络异常
无权限、无数据
模型返回乱码、不合法格式

看 Agent 是否优雅降级、不崩溃、不幻觉。

8. 性能与稳定性测试

单轮响应时间
多轮链路总耗时（思考 + 工具 + 总结）
并发下是否混乱
长时间运行是否内存溢出、逻辑错乱

9. 回归测试（Agent 版本迭代必测）

每次微调 Prompt、换模型、加工具，必须回归：

原有任务是否还能正常执行
工具调用是否劣化
是否出现新幻觉、新死循环

posted @ 2026-03-19 09:46 ReturnHome 阅读(50) 评论(0) 收藏举报

刷新页面返回顶部