软件测试面试经(一)
-
最近一份工作最熟悉的功能模块测试设计和大概流程是什么样的
我最近主要负责订单 / 用户中心模块的测试,先做需求分析和业务流程梳理,用等价类、边界值、场景法设计用例;提测后先做冒烟,再执行完整功能测试,对 Bug 进行提交、跟踪、回归;最后输出测试报告,评估上线风险,确保核心流程稳定、无阻塞问题。
-
大模型相关的测试场景很多,你是怎么做到提效的?提效的方式有哪些?评测的标准是怎么样制定的
面对大模型多场景,我主要通过分层测试、自动化评测、场景收敛、对比基线来提效;具体会搭建自动化评测 pipeline,用规则和小模型辅助打分,只把高风险和主观场景留给人工。
评测标准会结合业务目标,从客观准确率、安全通过率、格式合规性,再到人工主观的有用性、逻辑性综合制定,确保可量化、可复用来保证模型质量稳定。
-
自动化更多的是单独对模型测试,不是和机器人做整体的自动化交互测试?
-
端到端测试有什么提升效率的方法吗?
端到端测试我主要通过分层瘦身减少用例数量、提高用例稳定性降低重跑、并发分布式执行、测试数据自动化、以及只跑变更用例来提效。同时把通用操作组件化,替换成更高效的 Playwright 工具,整体执行速度和编写效率都能提升非常多。
-
有用大模型在实际工作过程中的提效,工作有哪些变化,流程有哪些变更
有了 AI 能力后,测试流程从传统的静态、手工、固定输出的模式,变成了AI 驱动的智能测试与持续迭代体系。主要变化发生在四个阶段:
1)测试准备阶段:AI 自动生成测试点、用例和数据集,替代大量手工梳理。
2)测试执行阶段:AI 辅助生成自动化脚本,搭建自动化 Pipeline,替代手工点点点,实现全链路自动回归。
3)结果断言阶段:从固定字符串比对,升级为智能评测、语义校验、LLM-as-judge 的动态断言。
4)回归与质量控制阶段:从静态验收,升级到建立基线、持续评测、自动检测退化,通过指标门禁来上线。
我的工作也从单纯的功能验证,转变为构建 AI 评测体系、搭建自动化框架、优化测试流程,大幅提升了测试效率和质量稳定性。
-
用cursor进行coding过程中,流程是什么样的,遇到过什么问题
我用 Cursor 一般是先搭建代码骨架,明确需求后通过指令生成功能代码,然后运行调试,根据报错再局部优化。
过程中遇到过 AI 生成代码看似正确但实际运行失败、上下文过长逻辑混乱、代码风格不统一等问题,后来通过拆分文件、人工校验代码、统一重构规范,既提高了编码效率,也保证了代码质量。
-
8.AI幻觉/上下问丢失,有没有了解用什么方法怎么去改善?让AI更精准
改善 AI 幻觉主要从几方面入手:
第一是RAG 检索增强生成,让模型基于真实文档回答,减少自由创作;
第二是指令精调和对齐训练,让模型更严谨、不编造;
第三是输出格式约束 + 事实校验,不确定内容直接提示未知,不瞎编;
第四是使用少样本示例引导,降低幻觉概率。
-
python装饰器怎么理解,项目中怎么使用
装饰器就是不修改原函数代码,动态给函数增加额外功能的高阶函数,常用 @ 语法糖使用。
我在项目里主要用来做:统一日志、执行计时、异常重试、接口请求封装、参数校验等,能大幅减少重复代码,让业务逻辑更干净。
-
接口自动化,在AI出现后是怎么做的,效率有哪些提升
你可以直接说这 5 点,非常专业:
用例设计效率提升 5~10 倍AI 几分钟完成一个模块,人要几小时。
自动化脚本开发效率提升 3~8 倍不用手写,复制粘贴就能跑。
断言覆盖率大幅提升传统只判状态码,AI 能做业务深度校验。
调试、定位问题时间减少 70% 以上AI 直接告诉你原因,不用一点点翻日志。
维护成本大幅降低接口变更时,AI 自动更新脚本,不用人工重构。
-
AI输出一篇很漂亮的自动化报告,怎么去确认,AI到底准确做了多少事情,怎么去判断这个事情?
判断 AI 自动化报告是否真实准确,不能只看格式和美观度,要从四个维度验证:
- 文件溯源:检查任务是否真实生成输出文件(点云、模型、日志等),没有文件则报告不可信。
- 日志校验:查看执行日志,确认每个步骤都真实执行,没有跳过、报错或伪造流程。
- 结果比对:抽样人工验证报告中的数值,如距离、面积、精度、点数,与真实数据比对。
- 指标量化:通过 ATE、RMSE、覆盖率等客观指标判断任务质量,避免主观描述误导。
我会搭建一套自动化校验机制:
用 Python 读取输出文件,校验格式、大小、点数是否合法
解析日志,检查关键步骤是否执行成功
对比标准结果,自动计算误差是否在阈值内
异常自动标记,不让虚假漂亮报告流入上线
这样既高效,又能彻底避免 AI 幻觉。

浙公网安备 33010602011771号