AI-大模型场景可用性测试

一、大模型的核心能力和评测维度

1.什么是大模型？

大模型中的大是指参数大，那么参数是什么？

参数在大模型的基础结构中，主要指两种东西：

权重（Weights）：这是参数最主要的部分。权重决定了不同神经元（可以理解为处理信息的基本单元）之间连接的“强度”。

偏置（Biases）：可以理解为每个神经元的“预设倾向”或“激活阈值”。它帮助模型决定在什么情况下应该被“激活”（即传递信息）。

参数数量是衡量模型规模和能力一个关键指标
- 知识容量：更多的参数意味着模型有更大的”记忆空间“，可以存储和学习更广泛、更细致的知识
- 理解和推理能力：庞大的参数网络使模型能够理解更复杂的指令、进行更深层次的逻辑推理，并捕捉语言中更细微的语境和情感。
- 泛化能力：参数足够多的模型，在面对从未见过的新问题时，更可能举一反三，给出合理的回答，而不是简单地背诵训练数据。
  - 一个模型的最终表现还取决于训练数据的质量、训练算法的效率以及模型的架构设计。

2.大语言模型工作原理

通俗原理：它只是根据上文，猜下一个词（的概率）；

训练和推理是大模型工作的两个核心过程。用人类比，训练就是学，推理就是用。学以致用，如是也。

3.贯穿的案例背景设定：

我们以一个 “企业级智能客服助手” 作为贯穿全程的案例。
核心功能：
- 意图识别与分类：理解用户问题是关于“售后”、“推荐”、“下单”还是“咨询”。
- 精准问答：基于企业知识库，生成准确、简洁的答案。
- 简单推理：处理如“我的订单A和订单B能一起发货吗？”这类需要多步判断的问题。

4.能力分类与评测基准

　　1. 知识泛化与指令泛化评测

方法：使用MMLU基准测试。它涵盖从初中到专业级别的57个主题，用于评估模型的广谱知识面和遵循指令解决问题的能力。

也就是说，你如果用通用模型或者自己训练模型，都可以使用MMLU基准测试。
- 和SuperGLUE的区别

特性	SuperGLUE	MMLU
核心目标	语言理解与推理	世界知识与问题解决
考察重点	模型是否能理解语言的细微差别、上下文、因果和常识。	模型是否知道各个领域的知识，并能用这些知识来回答问题。
任务形式	多样化。包含是非题、选择题、文本蕴含、指代消解等多种任务形式。	单一化。全部是四选一的多项选择题。

总结：
- MMLU 和 SuperGLUE 并不是谁取代谁的关系，而是从两个不同维度全面地描绘一个模型的智能水平。
- MMLU 高分，SuperGLUE 低分：像个“书呆子”，知识储备丰富，但语言理解能力差，无法进行复杂的对话或推理。
- SuperGLUE 高分，MMLU 低分：像个“聪明的文盲”，很会玩文字游戏，但缺乏基础知识，一问三不知。

　　所以：当我们评估像 GPT-5、Claude 3 这样的顶尖模型时，它们会同时在 MMLU 和 SuperGLUE（以及其他更新的基准）上进行测试，以证明它们既博学又聪慧。

　　2. 鲁棒性与稳定性测试

方法：
- 对抗攻击测试：输入含有错别字、添加无关信息的问题。

1.类别一：错别字 / 谐音梗攻击

这类数据测试模型对同音、近音、形近错误的纠错和理解能力。

原始意图（标准问题）	对抗攻击问题（测试输入）	期望的核心识别点
“你们店里最新的iPhone 15 Pro Max有货吗？”	“你们店里最新的爱疯15 Pro max有货吗？”	iPhone 15 Pro Max, 库存
“联想拯救者系列的游戏本哪个型号性价比最高？”	“联想拯救者系列的游戏本哪个型号性加比最高？”	联想拯救者, 性价比, 推荐
“佳能R5和索尼A7M4拍人像哪个更好？”	“佳能R5和索尼A7M4拍人象哪个更好？”	佳能R5, 索尼A7M4, 人像对比
“你们的相机支持7天无理由退换吗？”	“你们的相机支池7天无理由退换吗？”	相机, 7天无理由退换

　　2. 类别二：添加无关信息 / 口语化噪音

这类数据测试模型对同音、近音、形近错误的纠错和理解能力。

原始意图（标准问题）	对抗攻击问题（测试输入）	期望的核心识别点
“学生买电脑有优惠吗？”	“嗨，在吗？我是个大学生，想配个电脑写论文打游戏，你们这儿对学生有啥优惠活动不？”	学生, 电脑, 优惠
“这款手机的保修期是多久？”	“那个…我刚下单了你们家那款新手机，就是那个拍照很牛的，想问下万一坏了保修多久啊？”	手机, 保修期
“我想看看你们所有的微单相机。”	“朋友推荐我来你们店看看相机，他说你们家东西很全。麻烦把你们所有的微单都发我瞅瞅？”	微单相机, 展示所有

　　3. 混合攻击

这类数据结合了前两种攻击方式，最接近真实世界中“混乱”的用户提问，是检验模型鲁棒性的“压力测试”。

原始意图（标准问题）	对抗攻击问题（测试输入）	期望的核心识别点
“华为Mate 60 Pro的卫星通话功能怎么用？”	“在吗？听说华为mate 60 pro那个卫新通话功能很牛，我在山区信号不好，这个功能具体怎么用的啊？”	华为Mate 60 Pro, 卫星通话, 使用方法
M02 “这台游戏本的散热怎么样？”	“兄弟，我看你们店新上的这台游戏本，外观太帅了！我就是担心它玩久了会不会很烫，敢问一下它的散惹系统怎么样？”	游戏本, 散热
M03 “苹果的M3芯片和M2 Pro芯片哪个强？”	“纠结死了，想买个MacBook，不知道选M3的还是M2 Pro的，你们懂行的来说说，这两个芯片到底哪个更强一点？”	M3芯片, M2 Pro芯片, 性能对比

　　4. 分布外测试(OOD：Out-of-Distribution )：使用与训练数据分布差异巨大的 query

检验模型在面对非常规、冷门、虚构或极端边缘的用户咨询时，是否仍能保持专业、诚实、安全，并引导用户回到有效销售路径。这类测试特别重要，因为售前客服直接关系到用户体验、品牌信任和转化率。如果模型“胡说八道”或给出错误参数，可能导致客户流失甚至法律风险。

　　售前客服 OOD 测试设计原则

偏离主流产品线：询问停产多年、小众品牌、未上市机型。
例如：

用户问 “你们还有 Nokia 8110 4G 香蕉手机卖吗？它支持 5G 吗？”

理想响应：

“Nokia 8110 4G 是一款经典复刻功能机，仅支持 4G 网络，目前官方已停产。我们主推的 5G 智能手机有 [推荐型号]，支持更快网速和智能应用，需要我为您介绍吗？”

失败响应：

“有的，支持 5G，现在下单还送 5G 套餐！”（❌ 虚假信息）
虚构功能/型号：编造不存在的产品名或功能。 例如：

用户问 “我想买‘华为 Mate 70 Pro+ 星际版’，听说它内置量子通信模块，是真的吗？”

理想响应：

“目前华为官方尚未发布 Mate 70 系列，也未推出所谓‘星际版’或量子通信手机。建议关注华为官网或授权渠道获取最新信息。我们现有 Mate 60 Pro 支持卫星通信，需要了解吗？”

失败响应：

“是的！Mate 70 Pro+ 星际版采用华为自研量子芯片，支持地月通信…”（❌ 幻觉 + 误导）
跨域混搭需求：把非电子产品的诉求强加到设备上（如“能当微波炉用吗？”）。
极端使用场景：如“能在火星上用吗？”、“泡水后还能打游戏吗？”
地域/政策冷门问题：涉及极小国家的认证、关税、保修政策等。

　　3. 模型容量与记忆-泛化平衡分析

概念：测试模型是真正在“理解推理”还是在“背诵资料”。
方法：构造一个企业知识库中不存在、但可以通过逻辑推理得出答案的问题。

　　例如

知识库只写了“所有商品支持7天无理由退货”，问“我第8天能退货吗？”。一个只会记忆的模型可能答不上来，而一个有泛化能力的模型应能推断出“不能”。

二、大模型主流基准测试

1.大模型评测的独特挑战

1.泛化能力：大模型对未见过的任务和指令的泛化能力。测试不能只测见过的，更要测没见过的
- 简单理解，就是模型的举一反三的能力
2. 输出开放性：与分类模型不同，LLM的生成结果千变万化，“正确”答案不唯一。

2.基准测试作用

如果模型是自己训练的模型，需要用基准测试来验证模型效果

标准化标尺：如SuperGLUE，提供了一个统一的、公认的测试集，用于横向比较不同模型的“智商”高低。

SuperGLUE简介： 作为GLUE的升级版，包含更多更难的任务，如因果推理、指代消解，是衡量模型理解深度的“高考卷”。

能力诊断：通过分析模型在子任务（如阅读理解、自然语言推理）上的表现，精准定位模型弱点。

任务名称	考察能力	问题描述
BoolQ	阅读理解、事实判断	给定一段短文和一个问题，模型需要判断问题的答案是“是”还是“否”。
COPA	因果推理	给定一个前提和两个可能的选项，模型需要选择哪个选项是更合理的原因或结果。
ReCoRD	阅读理解、常识推理	给定一篇新闻文章和一个问题，其中问题中有一个实体被 @placeholder 替代。模型需要从文章中找出正确的实体来填空。
WiC	词语消歧	给定一个单词和两个使用了该单词的句子，模型需要判断这个词在这两个句子中的意思是否相同。
AX-b / AX-g	语法鲁棒性	包含一些故意设计的、有语法歧义或错误的句子，用来测试模型是否会被“迷惑”。

如何“使用”SuperGLUE（操作步骤）

　　　第一步：获取数据

- 官方网站：SuperGLUE 的数据集和排行榜可以在其官方网站上找到：https://super.gluebenchmark.com/
- 下载数据：可以从官网或通过 Hugging Face Datasets等平台下载训练集、验证集和测试集。

　　　　第二步：准备你的模型

- - 选择一个你想要评估的预训练语言模型，比如 BERT、RoBERTa、GPT、Llama 等。
  - 这个模型通常已经在大规模文本上进行了预训练，具备了基本的语言能

　　　第三步：在训练集上微调

　　　　这一步看具体情况，一般是测试提出需求，开发来进行操作。

SuperGLUE 的任务是有监督学习。你不能直接让模型“裸考”。
你需要使用 SuperGLUE 提供的训练集来对你的模型进行微调。
微调：就是让模型在 SuperGLUE 的具体任务上“做练习题”，学习如何解决这类问题。例如，在 BoolQ 任务上，模型会学习如何根据文本回答是非题。

　　第四步：在验证集上评估和调试

和第3步是一样，都需要开发同学来进行操作。

微调完成后，使用验证集来测试模型的表现。
验证集的作用就像“模拟考”，你可以根据模型在验证集上的得分来调整你的超参数（如学习率、训练轮次等），以达到最佳效果。

　　第五步：在测试集上获取最终分数

这一步是需要测试同学来重点实施的。

当你对模型在验证集上的表现满意后，就可以让它参加“期末考试”了。
使用测试集进行最终评估。对于 SuperGLUE，通常你需要将模型对测试集的预测结果上传到官方评估服务器，然后服务器会返回你的最终得分和排名。

总结：
- 1. 下载数据 -> 2. 微调模型 -> 3. 在测试集上评估 -> 4. 获取分数和排名。
- 衡量模型在复杂语言理解任务上的泛化能力。

三、各类任务的专项评估指标

1.NLU任务：
- 基准： GLUE/SuperGLUE。
- 指标：准确率、F1分数。适用于客服助手中的意图分类任务。
2.生成任务:
- 自动指标：
  - BLEU-4：衡量生成答案与标准答案在n-gram词组上的重合度。适用于问答的准确性评估。
  什么是： n-gram词组上的重合度？
  - n-gram：指连续的 n 个词组成的片段。
    - 1-gram（unigram）：单个词，如 “手机”、“支持”。
    - 2-gram（bigram）：两个连续词，如 “支持 5G”。
    - 3-gram（trigram）：三个连续词，如 “支持 5G 网络”。
    - 4-gram：四个连续词，如 “支持 5G 网络连接”。
  - 重合度： 生成文本中有多少 n-gram 也出现在参考答案中。
  BLEU-4 如何计算？
  - 核心公式：
  📌 实际使用中，不需要手动计算，可直接调用现成库。
  
  假设你有一批模型生成的回答和对应的人工标准答案，可以用 nltk 或 evaluate 库快速计算 BLEU-4。
  - ```
  import jieba
  from nltk.translate.bleu_score  import sentence_bleu, SmoothingFunction
  
  
  def chinese_bleu4(hyp, refs):
      hyp_tokens  = list (jieba.cut(hyp))
      ref_tokens  = [ list (jieba.cut(ref))  for ref  in refs]
      print (hyp_tokens,  "/n" )
      print (ref_tokens,  "/n" )
      smooth  = SmoothingFunction().method4
      return sentence_bleu(ref_tokens, hyp_tokens, weights = ( 0.25 ,) * 4 , smoothing_function = smooth)
  
  
  hyp  = "iPhone不支持安卓系统"
  refs  = [ "iPhone不支持安卓系统" ]
  
  
  score  = chinese_bleu4(hyp, refs)
  print (f "BLEU-4: {score:.4f}" )   # 通常输出 > 0，如 0.4897
```
- ⚠️But：虽然可以实现自动化、可批量评估。但是依然会有一些局限性。
  - 不评估语义正确性： 即使说“iPhone 支持安卓系统”，只要词组匹配就可能高分
  - 对同义词不友好：“快充” vs “快速充电”会被视为不匹配（除非用语义 BLEU）
  - 中文需分词： 直接按字或按空格切分会严重影响结果
  - 不适合开放回答： 售前问题常有多种合理答案，但 BLEU 只认参考文本
- 🔔 建议：
  BLEU-4 更适合封闭式、事实型问答（如参数查询），在售前场景中可作为辅助指标，但不能替代人工评估或基于事实准确性的判断（如规则校验等）。
- 人工评分：

自动指标无法衡量“流畅度”、“有用性”、“安全性”。必须引入人工进行评分。

1. 明确人工评分的目标
  
  先问清楚：我们想通过人工评分验证什么？
- 意图理解准确性：是否正确理解了用户的核心问题？
- 知识正确性：提供的信息、参数、政策是否准确无误？
- 上下文依赖：在多轮对话中，是否记住了历史信息并正确指代？
- 问题解决率：回复是否真正解决了用户的问题，或给出了有效下一步？
- 用户体验：回复是否清晰、有条理、友好且具有安抚力（如需）？
- 安全性 & 合规性：是否拒绝了敏感请求、避免了事实性“幻觉”？
设计评分维度与量表

参考：Scoring_rules
实施流程：
1. 准备测试样本
  - 从真实用户 query 或构造的 OOD 测试集中选取 100–500 条代表性问题。
  - 每条 query 由 待测大模型生成 1 条回答。
  - （可选）加入基线模型（如旧版、竞品）的回答用于对比。
2. 人工 + reward模型
  - 人工：内部专家，数据标注团队，且保障每条回答都要有至少2-3人独立评分。（计算一致性）

　　　　 ⚠️针对人工评测要进行质量控制

方法	说明
评分者间一致性（Inter-annotator Agreement）	计算每条回答的2-3人的评分是否一致，目标 > 0.6
插入“黄金标准”样本	预设 10% 已知答案的样本，监控评分员准确率
培训 + 小规模试评	正式评分前先评 10 条，反馈校准
剔除低质量评分员	如黄金样本错误率 > 30%

- Reward模型：基于「评分标准」进行评测，且生成评测结果和模型输出内容。

结果分析

- 汇总得分
  - 计算每个维度的平均分 ± 标准差
  - 按问题类型分组（如“参数查询” vs “故障咨询” vs “虚构产品”）
- 定性分析
  - 收集典型高分/低分案例，用于模型迭代或客服培训。
  - 分析幻觉（hallucination）高频场景。

总结：

人工评分 = 清晰维度 + 优质样本 + 严格质控 + 深度分析
在售前客服等高风险场景中，宁可少评，也要评准。一次高质量的人工评估（哪怕只有 100 条）远胜于千条模糊打分。

posted @ 2026-03-27 10:51 sunshine_coast 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

chenwh_123