霍格沃兹测试开发学社

《Python测试开发进阶训练营》(随到随学!)
2023年第2期《Python全栈开发与自动化测试班》(开班在即)
报名联系weixin/qq:2314507862

AI系统测试 vs 传统软件测试:当“断言思维”失效,测试工程师该如何转型?

这两年,大模型、智能体、MCP、RAG 几乎刷屏。

但有个问题更关键:

我们是在“用 AI”,还是在“测 AI”?

很多人理解的 AI,是生成测试用例、自动造数据、自动写脚本。 那叫用 AI 做测试。

今天讨论的是另一件事:

当产品本身是 AI 系统时,测试逻辑会发生什么变化?

当系统从“确定性程序”变成“概率模型”, 测试方法就必须跟着改变。

以前我们测试的是规则系统。 现在我们测试的是概率系统。

目录
传统软件测试的确定性因果模型
AI系统的生成式架构变化
因果关系断裂:测试难点的根源
断言模型为何在AI系统中失效
AI系统的三大技术特征
AI系统测试的工程化转型方向

  1. 传统软件测试的确定性因果模型
    传统软件的核心是:规则驱动 + 确定性逻辑。

可以抽象为:

d1debffe-3b2c-40f9-a612-b7e69fb6324a

特点非常明确:

输入字段固定
规则可读可追踪
输出可预测
可编写精确断言
例如:

输入手机号为空 → 点击提交 → 返回“不能为空”

自动化测试写法:

assert actual == "不能为空"
前提只有一个:

相同输入,在相同环境下,必然产生相同输出。

  1. AI系统的生成式架构变化
    当系统接入大模型后,内部结构发生变化。

0ccc654a-b343-4649-a899-21f3ad1e26c8

差异点在于:

输入变成自然语言
中间层变成神经网络
输出来自概率采样
例如:

输入:给我一首唐诗

多次调用,结果不同。 换一个模型,结果也不同。

系统不再围绕“规则匹配”, 而是围绕“概率分布”。

  1. 因果关系断裂:测试难点的根源
    我们对比一下。

传统系统调用流程

be45d427-b87c-4f45-9234-0fe9d0e6d407

结果稳定,可复现,可回归。

AI系统调用流程(同样输入,两次结果不同)

920e0f01-5302-4afa-989b-175d9850f68f

同样输入,两次输出不同。

这意味着:

因果关系不再线性
输出不再唯一
测试结果无法简单复现
传统“输入 → 唯一输出”的模型开始失效。

  1. 断言模型为何在AI系统中失效
    传统自动化测试的核心是断言:

assert actual == expected
但在 AI 系统中:

输入:讲个笑话 输出:一段文本

问题来了:

什么算笑话?
是否必须完全一致?
每次结果不同怎么办?
AI 输出没有唯一正确答案。

测试目标从“是否等于预期值”, 转变为“是否满足约束条件”。

例如:

是否包含完整语句
是否无敏感词
是否符合主题
是否满足长度区间
这不再是精确匹配,而是质量评估。

断言模型从“相等判断” 升级为“区间判断”或“语义判断”。

  1. AI系统的三大技术特征
    5.1 概率性

f018f39d-6fb2-4f5f-b89b-b1a98f134b46

模型输出的是概率最高的候选,而非唯一正确答案。

5.2 黑盒性

16eda6c0-090d-426d-9559-5c2ce20a553a

特点:

内部权重不可解释
决策路径不可枚举
规则不可穷举
测试人员只能观察输入与输出。

5.3 非确定性
相同输入:

不同时间可能不同输出
不同温度参数不同输出
不同模型不同输出
在传统软件中这是缺陷。 在 AI 系统中这是特性。

  1. AI系统测试的工程化转型方向
    当系统建立在概率模型之上,测试体系必须升级。

测试重点开始转向:

多样本回归测试
Prompt稳定性验证
输出质量分级评估
幻觉风险检测
数据分布漂移监控
对抗输入测试
测试工程师的角色也发生变化:

从功能验证者 转向 AI 质量评估工程师。

核心能力不再是:

写多少用例,

而是:

如何定义质量标准。

结语
传统软件测试建立在确定性之上。 AI系统建立在概率之上。

当系统不再保证“同样输入必然同样输出”, 测试方法就必须升级。

这不是多学一个工具的问题。 而是测试对象本身已经改变。

我们正在从规则系统测试, 走向概率系统测试。

测试这门职业没有变简单。 它只是进入了更复杂的阶段。

推荐学习
AI Agent进阶 OpenClaw + Claude Code公开课,手把手带你掌握 从“网页操控”到“终端自主编程”的执行力。

扫码进群,报名学习。

image

关于我们
霍格沃兹测试开发学社,隶属于 测吧(北京)科技有限公司,是一个面向软件测试爱好者的技术交流社区。

学社围绕现代软件测试工程体系展开,内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试,以及人工智能测试与 AI 在测试工程中的应用实践。

我们关注测试工程能力的系统化建设,包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设,同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法,沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外,学社还参与测试工程人才培养体系建设,面向高校提供测试实训平台与实践支持,组织开展 “火焰杯” 软件测试相关技术赛事,并探索以能力为导向的人才培养模式,包括高校学员先学习、就业后付款的实践路径。

同时,学社结合真实行业需求,为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务,用于个性化能力提升与工程实践指导。

posted @ 2026-03-04 14:35  霍格沃兹测试开发学社  阅读(0)  评论(0)    收藏  举报