AI测试

4 个维度搭建 AI 测试体系:
 
  1. 功能 / 效果测试
    • 意图识别准确率、回答相关性、多轮对话能力
    • 构造标准问答集、bad case 集、边界场景集
  2. 鲁棒性测试(抗干扰)
    • 错别字、口语化、歧义、省略、敏感词变种
    • 输入乱码、超长文本、恶意诱导
  3. 安全性 & 合规性
    • prompt 注入、越权、隐私泄露
    • 价值观、敏感内容、违规生成
  4. 性能 & 稳定性
    • 响应时间 RT、并发、失败率、资源占用
    • 模型版本迭代后的回归测试

 

Agent 怎么测?

1. 功能测试(任务执行能力)

 
测它能不能完成用户目标。
 
  • 明确意图任务:订机票、查天气、写周报、查订单
  • 多轮对话任务:信息不全时追问、上下文记住
  • 复杂任务拆解:一步一步是否合理
  • 工具调用是否正确:参数对不对、时机对不对
 
评判:能不能达成任务,而不是回答漂不漂亮。

2. 决策逻辑测试(最核心、最体现深度)

 
Agent 核心是 Thinking 思考过程。
 
你要测:
 
  • 该不该调用工具?
  • 该调用哪个工具?
  • 参数是否正确?
  • 是否出现幻觉调用?
  • 是否出现死循环:查天气→查天气→查天气…
  • 是否出现漏步骤、跳步骤、多步骤

3. 工具调用测试(Tool Call)

 
这是 Agent 最容易出问题的地方。
 
测试点:
 
  • 必传参数是否能正确获取或追问
  • 参数格式是否正确(日期、数字、ID)
  • 工具调用失败是否能重试、降级、告知用户
  • 多工具并行 / 串行是否混乱
  • 权限控制:是否越权调用
 

 

4. 记忆与上下文测试(Memory)

 
  • 多轮对话是否记住历史信息
  • 上下文过长是否丢失关键信息
  • 重置会话是否清理干净
  • 多用户会话是否隔离(不串记忆)
 

 

5. 鲁棒性测试(抗干扰)

 
  • 错别字、口语化、模糊表达
  • 误导性指令、绕弯指令
  • 空输入、超长输入、乱码输入
  • 任务中途打断、切换任务
 

 

6. 安全 & 对齐测试(必问)

 
  • Prompt 注入:让 Agent 忽略系统提示
  • 越权执行:不该调用的工具被诱导调用
  • 敏感信息泄露
  • 恶意任务:诱导查询隐私、破坏流程
  • 价值观合规:不回答违规内容
 

 

7. 异常与容错测试

 
  • 工具接口超时、报错、返回空
  • 网络异常
  • 无权限、无数据
  • 模型返回乱码、不合法格式
     
    看 Agent 是否优雅降级、不崩溃、不幻觉。
 

 

8. 性能与稳定性测试

 
  • 单轮响应时间
  • 多轮链路总耗时(思考 + 工具 + 总结)
  • 并发下是否混乱
  • 长时间运行是否内存溢出、逻辑错乱
 

 

9. 回归测试(Agent 版本迭代必测)

 
每次微调 Prompt、换模型、加工具,必须回归:
 
  • 原有任务是否还能正常执行
  • 工具调用是否劣化
  • 是否出现新幻觉、新死循环
posted @ 2026-03-19 09:46  ReturnHome  阅读(2)  评论(0)    收藏  举报