ai软件测试基础理论
AI 软件测试
一、什么是ai软件测试?
定义:ai软件测试是针对ai产品的全流程、多维度的测试活动
核心测试对象:ai的大模型、数据、功能、最终的目的验证ai产品的准确性、稳定性、安全和合规性、确保ai产品能稳定、可靠、合规的落地使用
ai 测试内容:
(1)功能能力测试(2)幻觉专向测试(3)鲁棒性测试(4)安全对齐测试(5)性能测试 (6)多模态专项测试(7)rag知识库测试、(8)合规和隐私测试
ai测试标准流程:
需求评审测试计划编写测试用例编写设计数据集用例搭建幻觉执行测试用例(功能、幻觉、鲁棒性、偏见)有bug提交给开发,直到用例100%执行输出测试报告验收封装版本上线上线成功
二、ai软件测试核心价值?
1、保障ai产品输出和输入的准确
2、避免ai出现幻觉、偏见等
3、提升用户体验
如:答非所问、ai文案逻辑混乱
4、符合行业合规标准
如:ai不能泄漏隐私、个人金额、存款
三、传统测试和ai测试差异
(1)测试对象
ai软件测试:模型、数据、功能
传统测试:功能、代码、逻辑
(2)测试方法
ai软件测试:统计分析法、多轮测试方法、对照组测试、数据排查方法(核心验证:输出正确性、一致性、无偏见、符合逻辑)
传统测试: 黑盒测试方法(等价类、边界值、场景法等)、白盒测试方法(语句覆盖、条件覆盖、判断覆盖等)
(3) 测试难点
ai软件测试:数据质量的层次不齐,幻觉难以预判,偏见难以量化,ai 输出的是动态,无法提前预判
传统测试:代码逻辑复杂,bug难以排查
四、ai测试的难点:
(1)数据质量层次不齐
ai学习依赖数据,数据就像是ai教材,教材有误,有缺失,格式不完整,ai就会学错,输出结果也是错的
(2)ai 幻觉难以预判
ai很容易出现虚假信息,也叫幻觉
(3)偏见难以量
ai偏见:性别偏见、 地域偏见
五、ai模型的完整流程?
数据采集(源头)》数据预处理(基础)》模型训练(核心)模型部署(桥梁)产品应用(目的)
(1)数据采集
ai模型的源头,核心作用:收集ai学习所需要的原始数据;
ai数据根据ai产品的需求,来提供
比如:ai文档生产模型,采集海量的文案教程
(2)数据预处理
ai模型的数据筛选与优化环节
核心作用:对数据的原始书进行清洗、整理、标准化
比如:整理教材、删除无效数据、标注重点数据内容
a、清洗:删除控制、错误数据、重复数据
b、标准化:统一数据格式,比如:省、市、县、镇 匹配
c、筛选:删除无关数据,整理成规范的数据
(3)模型训练:
ai模型学习环节
核心作用:让模型通过学习预处理的优质数据,总计规律,提升能力
(4)模型部署
ai模型从“从实验室”走向实际应用的关键环节
核心作用:将训练好的数据,部署到具体的ai产品中,让模拟能接受用户需求,输出正确的数据结果
(5)产品的应用
ai产品使用
核心作用:让部署后的模型,通过ai产品为用户提供服务、收集用户反馈,为模型优化提供依据
六、ai模型中三类数据:
训练数据、测试数据、标注数据
(1)训练数据
用于ai模型训练的优质数据,是一个模型,是一个学习知识的教材
(2)测试数据
用于测试ai模型的问题,排查模型中的问题的数据
(3)标注数据
对原始书进行标记,说明修改后的数据,相对预给ai模型的教材标注了重点
浙公网安备 33010602011771号