AI-大模型场景可用性测试
一、大模型的核心能力和评测维度
1.什么是大模型?
- 大模型中的大是指参数大,那么参数是什么?
参数在大模型的基础结构中,主要指两种东西:
- 权重(Weights):这是参数最主要的部分。权重决定了不同神经元(可以理解为处理信息的基本单元)之间连接的“强度”。
- 偏置(Biases):可以理解为每个神经元的“预设倾向”或“激活阈值”。它帮助模型决定在什么情况下应该被“激活”(即传递信息)。
-
参数数量是衡量模型规模和能力一个关键指标
- 知识容量:更多的参数意味着模型有更大的”记忆空间“,可以存储和学习更广泛、更细致的知识
- 理解和推理能力:庞大的参数网络使模型能够理解更复杂的指令、进行更深层次的逻辑推理,并捕捉语言中更细微的语境和情感。
- 泛化能力:参数足够多的模型,在面对从未见过的新问题时,更可能举一反三,给出合理的回答,而不是简单地背诵训练数据。
- 一个模型的最终表现还取决于训练数据的质量、训练算法的效率以及模型的架构设计。
2.大语言模型工作原理
通俗原理:它只是根据上文,猜下一个词(的概率);
训练和推理是大模型工作的两个核心过程。用人类比,训练就是学,推理就是用。学以致用,如是也。
3.贯穿的案例背景设定:
-
我们以一个 “企业级智能客服助手” 作为贯穿全程的案例。
-
核心功能:
-
意图识别与分类: 理解用户问题是关于“售后”、“推荐”、“下单”还是“咨询”。
-
精准问答: 基于企业知识库,生成准确、简洁的答案。
-
简单推理: 处理如“我的订单A和订单B能一起发货吗?”这类需要多步判断的问题。
-
4.能力分类与评测基准
1. 知识泛化与指令泛化评测
-
方法: 使用MMLU基准测试。它涵盖从初中到专业级别的57个主题,用于评估模型的广谱知识面和遵循指令解决问题的能力。
也就是说,你如果用通用模型或者自己训练模型,都可以使用MMLU基准测试。
- 和SuperGLUE的区别
-
- 和SuperGLUE的区别
| 特性 | SuperGLUE | MMLU |
|---|---|---|
| 核心目标 | 语言理解与推理 | 世界知识与问题解决 |
| 考察重点 | 模型是否能理解语言的细微差别、上下文、因果和常识。 | 模型是否知道各个领域的知识,并能用这些知识来回答问题。 |
| 任务形式 | 多样化。包含是非题、选择题、文本蕴含、指代消解等多种任务形式。 | 单一化。全部是四选一的多项选择题。 |
- 总结:
- MMLU 和 SuperGLUE 并不是谁取代谁的关系,而是从两个不同维度全面地描绘一个模型的智能水平。
- MMLU 高分,SuperGLUE 低分:像个“书呆子”,知识储备丰富,但语言理解能力差,无法进行复杂的对话或推理。
- SuperGLUE 高分,MMLU 低分:像个“聪明的文盲”,很会玩文字游戏,但缺乏基础知识,一问三不知。
2. 鲁棒性与稳定性测试
-
方法:
- 对抗攻击测试: 输入含有错别字、添加无关信息的问题。
这类数据测试模型对同音、近音、形近错误的纠错和理解能力。
| 原始意图(标准问题) | 对抗攻击问题(测试输入) | 期望的核心识别点 |
|---|---|---|
| “你们店里最新的iPhone 15 Pro Max有货吗?” | “你们店里最新的爱疯15 Pro max有货吗?” | iPhone 15 Pro Max, 库存 |
| “联想拯救者系列的游戏本哪个型号性价比最高?” | “联想拯救者系列的游戏本哪个型号性加比最高?” | 联想拯救者, 性价比, 推荐 |
| “佳能R5和索尼A7M4拍人像哪个更好?” | “佳能R5和索尼A7M4拍人象哪个更好?” | 佳能R5, 索尼A7M4, 人像对比 |
| “你们的相机支持7天无理由退换吗?” | “你们的相机支池7天无理由退换吗?” | 相机, 7天无理由退换 |
2. 类别二:添加无关信息 / 口语化噪音
这类数据测试模型对同音、近音、形近错误的纠错和理解能力。
| 原始意图(标准问题) | 对抗攻击问题(测试输入) | 期望的核心识别点 |
|---|---|---|
| “学生买电脑有优惠吗?” | “嗨,在吗?我是个大学生,想配个电脑写论文打游戏,你们这儿对学生有啥优惠活动不?” | 学生, 电脑, 优惠 |
| “这款手机的保修期是多久?” | “那个…我刚下单了你们家那款新手机,就是那个拍照很牛的,想问下万一坏了保修多久啊?” | 手机, 保修期 |
| “我想看看你们所有的微单相机。” | “朋友推荐我来你们店看看相机,他说你们家东西很全。麻烦把你们所有的微单都发我瞅瞅?” | 微单相机, 展示所有 |
3. 混合攻击
这类数据结合了前两种攻击方式,最接近真实世界中“混乱”的用户提问,是检验模型鲁棒性的“压力测试”。
| 原始意图(标准问题) | 对抗攻击问题(测试输入) | 期望的核心识别点 |
|---|---|---|
| “华为Mate 60 Pro的卫星通话功能怎么用?” | “在吗?听说华为mate 60 pro那个卫新通话功能很牛,我在山区信号不好,这个功能具体怎么用的啊?” | 华为Mate 60 Pro, 卫星通话, 使用方法 |
| M02 “这台游戏本的散热怎么样?” | “兄弟,我看你们店新上的这台游戏本,外观太帅了!我就是担心它玩久了会不会很烫,敢问一下它的散惹系统怎么样?” | 游戏本, 散热 |
| M03 “苹果的M3芯片和M2 Pro芯片哪个强?” | “纠结死了,想买个MacBook,不知道选M3的还是M2 Pro的,你们懂行的来说说,这两个芯片到底哪个更强一点?” | M3芯片, M2 Pro芯片, 性能对比 |
4. 分布外测试(OOD:Out-of-Distribution ): 使用与训练数据分布差异巨大的 query
检验模型在面对非常规、冷门、虚构或极端边缘的用户咨询时,是否仍能保持专业、诚实、安全,并引导用户回到有效销售路径。 这类测试特别重要,因为售前客服直接关系到用户体验、品牌信任和转化率。如果模型“胡说八道”或给出错误参数,可能导致客户流失甚至法律风险。
售前客服 OOD 测试设计原则
-
偏离主流产品线:询问停产多年、小众品牌、未上市机型。
例如:用户问 “你们还有 Nokia 8110 4G 香蕉手机卖吗?它支持 5G 吗?”
理想响应:
“Nokia 8110 4G 是一款经典复刻功能机,仅支持 4G 网络,目前官方已停产。我们主推的 5G 智能手机有 [推荐型号],支持更快网速和智能应用,需要我为您介绍吗?”
失败响应:
“有的,支持 5G,现在下单还送 5G 套餐!”(❌ 虚假信息)
-
虚构功能/型号:编造不存在的产品名或功能。 例如:
用户问 “我想买‘华为 Mate 70 Pro+ 星际版’,听说它内置量子通信模块,是真的吗?”
理想响应:
“目前华为官方尚未发布 Mate 70 系列,也未推出所谓‘星际版’或量子通信手机。建议关注华为官网或授权渠道获取最新信息。我们现有 Mate 60 Pro 支持卫星通信,需要了解吗?”
失败响应:
“是的!Mate 70 Pro+ 星际版采用华为自研量子芯片,支持地月通信…”(❌ 幻觉 + 误导)
-
跨域混搭需求:把非电子产品的诉求强加到设备上(如“能当微波炉用吗?”)。
-
极端使用场景:如“能在火星上用吗?”、“泡水后还能打游戏吗?”
-
地域/政策冷门问题:涉及极小国家的认证、关税、保修政策等。
3. 模型容量与记忆-泛化平衡分析
-
概念: 测试模型是真正在“理解推理”还是在“背诵资料”。
-
方法: 构造一个企业知识库中不存在、但可以通过逻辑推理得出答案的问题。
例如
知识库只写了“所有商品支持7天无理由退货”,问“我第8天能退货吗?”。一个只会记忆的模型可能答不上来,而一个有泛化能力的模型应能推断出“不能”。
二、大模型主流基准测试
1.大模型评测的独特挑战
- 1.泛化能力:大模型对未见过的任务和指令的泛化能力。测试不能只测见过的,更要测没见过的
- 简单理解,就是模型的举一反三的能力
- 2. 输出开放性: 与分类模型不同,LLM的生成结果千变万化,“正确”答案不唯一。
2.基准测试作用
如果模型是自己训练的模型,需要用基准测试来验证模型效果
- 标准化标尺: 如SuperGLUE,提供了一个统一的、公认的测试集,用于横向比较不同模型的“智商”高低。
- SuperGLUE简介: 作为GLUE的升级版,包含更多更难的任务,如因果推理、指代消解,是衡量模型理解深度的“高考卷”。
- 能力诊断: 通过分析模型在子任务(如阅读理解、自然语言推理)上的表现,精准定位模型弱点。
-
任务名称 考察能力 问题描述 BoolQ 阅读理解、事实判断 给定一段短文和一个问题,模型需要判断问题的答案是“是”还是“否”。 COPA 因果推理 给定一个前提和两个可能的选项,模型需要选择哪个选项是更合理的原因或结果。 ReCoRD 阅读理解、常识推理 给定一篇新闻文章和一个问题,其中问题中有一个实体被 @placeholder 替代。模型需要从文章中找出正确的实体来填空。 WiC 词语消歧 给定一个单词和两个使用了该单词的句子,模型需要判断这个词在这两个句子中的意思是否相同。 AX-b / AX-g 语法鲁棒性 包含一些故意设计的、有语法歧义或错误的句子,用来测试模型是否会被“迷惑”。
- 如何“使用”SuperGLUE(操作步骤)
第一步:获取数据
-
- 官方网站:SuperGLUE 的数据集和排行榜可以在其官方网站上找到:https://super.gluebenchmark.com/
- 下载数据:可以从官网或通过 Hugging Face Datasets等平台下载训练集、验证集和测试集。
第二步:准备你的模型
-
-
- 选择一个你想要评估的预训练语言模型,比如 BERT、RoBERTa、GPT、Llama 等。
- 这个模型通常已经在大规模文本上进行了预训练,具备了基本的语言能
-
第三步:在训练集上微调
这一步看具体情况,一般是测试提出需求,开发来进行操作。
- SuperGLUE 的任务是有监督学习。你不能直接让模型“裸考”。
- 你需要使用 SuperGLUE 提供的训练集来对你的模型进行微调。
- 微调:就是让模型在 SuperGLUE 的具体任务上“做练习题”,学习如何解决这类问题。例如,在 BoolQ 任务上,模型会学习如何根据文本回答是非题。
第四步:在验证集上评估和调试
和第3步是一样,都需要开发同学来进行操作。
- 微调完成后,使用验证集来测试模型的表现。
- 验证集的作用就像“模拟考”,你可以根据模型在验证集上的得分来调整你的超参数(如学习率、训练轮次等),以达到最佳效果。
第五步:在测试集上获取最终分数
这一步是需要测试同学来重点实施的。
- 当你对模型在验证集上的表现满意后,就可以让它参加“期末考试”了。
- 使用测试集进行最终评估。对于 SuperGLUE,通常你需要将模型对测试集的预测结果上传到官方评估服务器,然后服务器会返回你的最终得分和排名。
- 总结:
- 1. 下载数据 -> 2. 微调模型 -> 3. 在测试集上评估 -> 4. 获取分数和排名。
- 衡量模型在复杂语言理解任务上的泛化能力。
三、各类任务的专项评估指标
-
1.NLU任务:
-
基准: GLUE/SuperGLUE。
-
指标: 准确率、F1分数。适用于客服助手中的意图分类任务。
-
-
2.生成任务:
-
自动指标:
- BLEU-4: 衡量生成答案与标准答案在n-gram词组上的重合度。适用于问答的准确性评估。
什么是: n-gram词组上的重合度?
- n-gram:指连续的 n 个词组成的片段。
- 1-gram(unigram):单个词,如 “手机”、“支持”。
- 2-gram(bigram):两个连续词,如 “支持 5G”。
- 3-gram(trigram):三个连续词,如 “支持 5G 网络”。
- 4-gram:四个连续词,如 “支持 5G 网络连接”。
- 重合度: 生成文本中有多少 n-gram 也出现在参考答案中。
BLEU-4 如何计算?
- 核心公式:
📌 实际使用中,不需要手动计算,可直接调用现成库。
假设你有一批模型生成的回答和对应的人工标准答案,可以用 nltk 或 evaluate 库快速计算 BLEU-4。
-
import jieba from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction def chinese_bleu4(hyp, refs): hyp_tokens = list (jieba.cut(hyp)) ref_tokens = [ list (jieba.cut(ref)) for ref in refs] print (hyp_tokens, "/n" ) print (ref_tokens, "/n" ) smooth = SmoothingFunction().method4 return sentence_bleu(ref_tokens, hyp_tokens, weights = ( 0.25 ,) * 4 , smoothing_function = smooth) hyp = "iPhone不支持安卓系统" refs = [ "iPhone不支持安卓系统" ] score = chinese_bleu4(hyp, refs) print (f "BLEU-4: {score:.4f}" ) # 通常输出 > 0,如 0.4897 -
⚠️But:虽然可以实现自动化、可批量评估。但是依然会有一些局限性。
- 不评估语义正确性: 即使说“iPhone 支持安卓系统”,只要词组匹配就可能高分
- 对同义词不友好:“快充” vs “快速充电”会被视为不匹配(除非用语义 BLEU)
- 中文需分词: 直接按字或按空格切分会严重影响结果
- 不适合开放回答: 售前问题常有多种合理答案,但 BLEU 只认参考文本
-
🔔 建议:
BLEU-4 更适合封闭式、事实型问答(如参数查询),在售前场景中可作为辅助指标,但不能替代人工评估或基于事实准确性的判断(如 规则校验等)。
- 人工评分:
-
自动指标无法衡量“流畅度”、“有用性”、“安全性”。必须引入人工进行评分。
-
明确人工评分的目标
先问清楚:我们想通过人工评分验证什么?
- 意图理解准确性:是否正确理解了用户的核心问题?
- 知识正确性:提供的信息、参数、政策是否准确无误?
- 上下文依赖:在多轮对话中,是否记住了历史信息并正确指代?
- 问题解决率:回复是否真正解决了用户的问题,或给出了有效下一步?
- 用户体验:回复是否清晰、有条理、友好且具有安抚力(如需)?
- 安全性 & 合规性:是否拒绝了敏感请求、避免了事实性“幻觉”?
-
-
设计评分维度与量表
参考:Scoring_rules
-
实施流程:
-
准备测试样本
- 从真实用户 query 或构造的 OOD 测试集中选取 100–500 条 代表性问题。
- 每条 query 由 待测大模型生成 1 条回答。
- (可选)加入基线模型(如旧版、竞品)的回答用于对比。
-
人工 + reward模型
- 人工:内部专家,数据标注团队,且保障每条回答都要有至少2-3人独立评分。(计算一致性)
-
⚠️针对人工评测要进行质量控制
| 方法 | 说明 |
|---|---|
| 评分者间一致性(Inter-annotator Agreement) | 计算 每条回答的2-3人的评分是否一致,目标 > 0.6 |
| 插入“黄金标准”样本 | 预设 10% 已知答案的样本,监控评分员准确率 |
| 培训 + 小规模试评 | 正式评分前先评 10 条,反馈校准 |
| 剔除低质量评分员 | 如黄金样本错误率 > 30% |
-
Reward模型:基于「评分标准」进行评测,且生成评测结果和模型输出内容。
- 结果分析
-
-
汇总得分
- 计算每个维度的平均分 ± 标准差
- 按问题类型分组(如“参数查询” vs “故障咨询” vs “虚构产品”)
-
定性分析
- 收集典型高分/低分案例,用于模型迭代或客服培训。
- 分析幻觉(hallucination)高频场景。
-
- 人工评分 = 清晰维度 + 优质样本 + 严格质控 + 深度分析
- 在售前客服等高风险场景中,宁可少评,也要评准。一次高质量的人工评估(哪怕只有 100 条)远胜于千条模糊打分。


浙公网安备 33010602011771号