【202503】基于 LM-Polygraph 的大语言模型不确定性量化基准测试综合分析
本文内容由Gemini和Gemini Deep Research根据论文网页生成,仅供参考:
本文揭示的一些基本道理:
- 对比出真知,表现较好的不确定性量化方法需要通过对比实现,多次输出之间的对比或者和正确回答之间的对比。
- 越强大越自知,如果采用直接向模型提问的方式获取输出的不确定性,越是大规模的模型才可能有效果。
本文的内容对于使用大模型进行语料标注也有些启发,语料标注可以视作模型应用,需要对模型的输出进行一定的不确定性量化,筛选掉不合理的标注。
论文基本信息
-
标题 (Title): Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph
-
作者 (Authors): Roman Vashurin, Ekaterina Fadeeva, Artem Vazhentsev, Lyudmila Rvanova, Daniil Vasilev, Akim Tsvigun, Sergey Petrakov, Rui Xing, Abdelrahman Sadallah, Kirill Grishchenkov, Alexander Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov, Artem Shelmanov. (等多位作者)
-
期刊 (Journal): Transactions of the Association for Computational Linguistics (TACL)
-
卷/期/页码 (Volume/Issue/Pages): 2025年,第13卷,第220–248页
-
DOI (数字对象标识符): doi.org/10.1162/tacl_a_00737
-
发表时间 (Publication Date): 2025年 (接收日期:2024年6月1日;修订接收日期:2024年10月1日)
-
内容摘要/主要贡献 (Abstract/Key Contributions):
- 研究主题: 对大型语言模型(LLMs)的不确定性量化(Uncertainty Quantification, UQ)方法进行基准测试。
- 核心内容: 引入了一个新的基准测试,该基准基于 LM-Polygraph 框架,旨在对LLM在各种文本生成任务(如选择性问答、选择性生成、声明级事实核查)中的UQ技术进行可控且一致的评估。(“大语言模型的不确定性量化”就是对模型和任务的一种评估,本文是对评估方法的评估。)
- 方法与评估: 实现了最先进的UQ基线集合,并支持评估置信度归一化方法(Normalization Methods)的解释性。作者通过该基准对UQ和归一化技术进行了大规模实证研究,涵盖了十一个数据集,并确定了最有效的方法。
- 目标: 解决当前LLM UQ研究中技术和评估方法分散的问题,为研究人员提供一个更可靠、一致的评估环境。
基于 LM-Polygraph 的大语言模型不确定性量化基准测试综合分析 (Vashurin 等人,TACL 2025)
1. 战略必要性:不确定性量化作为可信赖 LLM 部署的基础
1.1 背景危机:LLM 幻觉与可靠性鸿沟
大语言模型(LLM)前所未有的扩张也带来了输出保真度的重大挑战,尤其是“幻觉”(捏造事实)和生成普遍低质量或不当内容等普遍存在的问题1。这些问题归因于机器学习模型固有的错误敏感性,这些错误源于有限的训练数据、某些任务中存在的歧义,以及 LLM 所采用的特定训练目标1。因此,研究人员一直致力于寻找有效且高效的方法来解决这些系统性的可靠性缺陷。
不确定性量化(UQ)已被牢固地确立为减轻这些挑战的机器学习应用中的关键要素1。除了单纯的性能指标外,UQ 正日益被视为 AI 系统中的基础安全组件。UQ 的主要作用在于使系统能够放弃不确定或高风险的模型预测。这种机制允许将此类输入重新路由,并通过替代、更安全的方式进行处理,例如升级给人工操作员或依赖互补的、更专业的模型1。在错误成本极高的应用领域,如临床医疗保健或自动驾驶系统,这种机制是不可或缺的,因此建立强大的 UQ 协议对于确立基础安全保障至关重要1。
此外,UQ 的作用远远超出反应性安全措施。不确定性分数提供了重要的元认知信号,可以被主动用于若干关键的下游应用。这些应用包括有效检测分布外(OOD)输入、使用主动学习策略进行高效标注(联想语料生产,不确定性量化可以用于评估大模型语料标注的质量。)、稳健识别对抗性攻击,以及通过先发制人地中止不确定的生成过程来动态减少模型响应延迟1。虽然现有的输出审查技术——例如使用外部分类器进行后处理、输出过滤、使用外部工具进行事实核查或内部模型对齐——提供了一定的缓解,但它们通常不足以完全消除不正确或不适当的输出。例如,外部事实核查器仅解决一个狭窄的子问题,并且依赖于外部的、通常不完整的知识来源1。(不确定性量化评估的是模型输出的变化情况还是正确与错误?模型可能稳定地错误。)这使得需要像稳健 UQ 这样的模型内在解决方案。
1.2 研究空白:UQ 方法论与评估的碎片化
尽管对 LLM 中稳健 UQ 的需求明确且紧迫,但在建立此基准之前,研究领域是碎片化的。先前关于 LLM 的 UQ 技术和评估方法的研究缺乏统一的方法1。虽然针对传统分类和回归模型存在大量的 UQ 方法,但它们在复杂文本生成任务中的应用和可靠评估需要专门的框架。
LM-Polygraph 基准通过引入一个新颖、全面且统一的环境来解决这种碎片化。(目的是横向评价各种文本生成地不确定性量化方法。)该环境实现了最先进 UQ 基线的集合,并提供了必要的工具,用于对各种文本生成任务中的新 UQ 技术进行可控和一致的评估1。建立这样一个基准不仅仅是优化方面的学术实践;它是在为量化可靠性和推进可信赖 AI 领域建立一个标准化的科学基础。
1.3 LM-Polygraph 基准的核心贡献
该研究论文对计算语言学和 AI 安全做出了几项独特的贡献:
首先,它提出了一个专门为系统评估 LLM 的不确定性量化(UQ)方法和不确定性归一化方法而设计的新型综合基准1。该框架能够评估不确定性分数的原始效用(在选择性生成中的有效性)和校准,特别针对选择性问答(QA)和声明级事实核查(一种直接的幻觉检测方法)1。
其次,作为基准的一个组成部分,作者开发了一种新颖的多语言自动评估流程。该流程对于评估声明级 UQ 方法至关重要,特别是它们在跨语言边界对 LLM 输出进行事实核查的有效性。该流程侧重于四种不同的语言:英语、普通话、阿拉伯语和俄语1。
第三,该研究开发了用于生成归一化和有界置信分数(目的是横向对比不同方法)的特定方法。这种归一化的目标是双重的:在保留原始不确定性分数所实现的高性能的同时,提供显著更好的校准和改进的最终用户可解释性1。这一贡献直接解决了最大化原始弃权效用与确保置信分数在心理上可靠并被人工操作员理解之间的权衡问题。
最后,利用开发的基准,作者对各种最先进的 UQ 和归一化技术进行了详尽、大规模的实证研究,确定了在多个部署场景中最有效的方法1。
2. LM-Polygraph 基准测试框架的架构
LM-Polygraph 基准被设计为一种灵活且严谨的工具,用于评估跨越不同文本生成模态和语言的 UQ。其架构设计侧重于三个关键领域:任务范围、专业多语言事实核查和实际操作可访问性。
2.1 评估任务范围:选择性问答和生成
使用 LM-Polygraph 框架进行的实证评估涵盖了总共十一个不同的文本生成任务1。这些任务范围从简单的事实检索到复杂的多步推理,确保对 UQ 估计器的泛化能力进行广泛测试。这种多样化评估集的结构旨在测试 UQ 估计器的可迁移性。(量化方法在不同任务上的适用性。)核心目标是确定给定的 UQ 技术(例如简单的最大序列概率 (MSP))是普遍保持强大的性能,还是其效用仅限于特定的、简单的生成任务,从而要求对复杂应用进行专门化。
至关重要的是,该基准需要用于模型校准的数据。(模型校准的数据是什么意思?是用数据集的训练集合吗?)在选择性问答和生成部分使用的数据集的保留训练分区被指定为归一化方法的校准集1。
2.2 专业焦点:多语言声明级事实核查
该基准的一个重要组成部分是对声明级 UQ 方法(声明级UQ方法是什么?应该是用有人工标签的声明数据集验证模型生成内容是否存在幻觉。)的评估,这些方法专门设计用于幻觉检测。该评估侧重于对四种语言上多样化的 LLM 输出进行事实核查:英语、普通话、阿拉伯语和俄语1。
致力于多语言评估对于评估 UQ 方法在现实世界部署挑战中的弹性至关重要。通过纳入高度不同的语系(汉藏语系、闪米特语系和印欧语系),该基准积极地测试了在不同语言结构、标记化复杂性和潜在资源稀缺下的性能。这些语言差异代表了序列概率模型的潜在故障点,强调了稳健、与语言无关的 UQ 技术的必要性。
对于此特定任务,该框架利用了 \(\text{LM-Polygraph/bio-claim-human-anno}\) 数据集,该数据集为声明提供了高粒度、经过人工验证的真实标签3。
2.2.1 Bio-Claim 数据集结构
\(\text{LM-Polygraph/bio-claim-human-anno}\) 数据集的默认子集包含 818 行,其结构是一个记录有关各种主题的声明的表格3。
表 4:\(\text{LM-Polygraph/bio-claim-human-anno}\) 数据集结构
| 列 | 数据类型 | 描述 |
|---|---|---|
| subject | string |
声明所涉及的人物或实体(例如,“Albert Einstein”)3。 |
| claim | string |
关于该主题的具体断言(例如,“After graduation, Einstein struggled to find a teaching position.”)3。 |
| sentence | string |
用于核查的上下文或验证句子3。 |
| GPT class | bool |
由 GPT 模型进行的分类(True/False)3。 |
| human1 class | bool |
由第一位人工标注者进行的分类3。 |
| human2 class | bool |
由第二位人工标注者进行的分类3。 |
| human3 class | bool |
由第三位人工标注者进行的分类3。 |
数据集的分布突出显示了对某些语言环境的刻意关注。虽然总行数为 818 行,但拆分显示出明显的偏向阿拉伯语,阿拉伯语包含 478 行,而英语、俄语和中文拆分包含 100 到 140 行3。这种过度代表表明对评估和开发阿拉伯语语言环境中的 UQ 性能有强烈的承诺,可能反映了作者或相关机构的部署优先级。明确使用多个人工标注者,有时会导致空值或不同的分类,这承认了事实核查中固有的模糊性,为训练和评估声明级 UQ 提供了稳健的、基于共识的真实标签3。
2.3 操作框架:可访问性和兼容性
LM-Polygraph 框架旨在实现广泛的实际采用,体现在它以宽松的 MIT 许可发布,并在 GitHub 和 PyPI 上均可获取1。这确保了学术研究人员和商业实体都可以将该基准集成到他们的开发周期中。
2.3.1 白盒与黑盒模型支持
该框架的一个关键特性是它支持整个部署范围内的模型。它区分了白盒和黑盒配置4:
- 白盒模型: 这些是从 HuggingFace 等资源加载的标准模型(例如 Qwen2.5、Llama-3.1),允许访问内部状态,例如标记对数和隐藏表示。这种访问对于计算效率高的基于信息的方法(例如平均标记熵)(通过模型概率的方式评估更接近本质表现,也不需要对话模型。)和性能更高但资源密集度更高的样本多样性方法是必需的4。
- 黑盒模型: 这些模型通常通过商业 API(例如,与 OpenAI 兼容的服务)提供服务,仅暴露输入和输出。该框架支持使用 \(\text{BlackboxModel.from\_openai}\) 进行初始化4。
对不提供内部对数的完全黑盒模型的明确支持,对于企业采用非常实用。它承认许多高性能的专有 LLM 在部署时不会暴露内部状态。该框架纳入了专业的黑盒 UQ 方法,例如 \(\text{DetMat()}\) 或 \(\text{EigValLaplacian()}\),它们可以仅基于输出语义或密度度量来估计不确定性(更实用的是基于黑盒的评估方法。),即使内部访问受到限制,也允许进行 UQ 评估4。
2.3.2 实施和使用
核心框架的安装非常简单,通过 \(\text{pip install lm-polygraph}\) 即可4。对于实际评估,该框架提供了一个命令行实用程序 \(\text{polygraph\_eval}\),通过 YAML 文件进行配置。一个关键的性能考量是与高性能推理引擎(例如 \(\text{vLLM}\))的集成4。明确支持加速生成至关重要,因为许多高效率的 UQ 方法,特别是那些依赖样本多样性的方法,会带来显著的计算开销和延迟5。通过实现多个样本的快速、并行生成,该基准确保了可以高效地评估这些技术在现代基础设施上的性能权衡4。
3. 不确定性量化方法分类和计算权衡
LM-Polygraph 基准通过根据 UQ 方法的操作机制和资源需求对它们进行分类,从而使评估系统化。该框架包含了一个超过 35 种方法的综合列表,按类型、计算成本和估计级别(序列或声明)进行分类4。
3.1 不确定性估计器分类
UQ 方法根据它们利用的信息大致分类:(这个分类有价值,反射式可能是最易用的方法。)
- 基于信息: 依赖于从单次生成运行中得出的标记概率和序列似然。
- 样本多样性: 利用多个独立生成的样本之间的语义变化或不一致。
- 集成: 涉及多个模型或子模型的方法。
- 基于密度: 估计输入属于模型训练分布的可能性的方法。
- 反射式: 提示 LLM 口头提供其自身置信分数的方法4。
3.2 白盒基于信息的方法:低延迟基线
这些方法利用语言模型概率分布中固有的信息进行单次生成,使其速度极快且资源高效。
基准测试的方法包括最大序列概率(MSP)、困惑度、平均/最大标记熵(TE)和逐点互信息(PMI)(意思是大模型单词输出本身的不稳定性、波动性。如何通过单词生成计算这些指标?应该是直接看输出结果之前输出文本的概率,如果是归一化后从矮子里挑将军,说明不确定性高。)1。
主要的权衡特征是低计算和低内存需求,不需要额外的训练数据1。这些方法主要捕获偶然不确定性——输入数据或任务定义中固有的噪声或不确定性。由于它们的资源效率,MSP 和类似方法是 UQ 评估所必需的、资源高效的基线,并且是低延迟过滤应用中的强制性要求1。根据经验,MSP 在所有评估任务中被证明是一个非常强大和稳健的基线,证实了其作为基础 UQ 技术的状态,应保留在所有 LLM 评估协议中1。
3.3 高级样本多样性方法:高性能,高成本
基于样本多样性的方法旨在捕获认知不确定性——源于模型自身无知或在输入空间特定区域缺乏足够训练数据的不确定性。(意思就是模型能力不足或者在特定领域缺乏训练导致多次输出结果之间的不稳定。这种验证方式的计算量相比单词计算至少翻倍。)这种不确定性表现为对同一提示的多个独特生成之间语义含义的变化。
这些方法包括蒙特卡洛归一化序列熵(MC-NSE)、语义熵、SentenceSAR 和 SAR1。
样本多样性方法在基准测试中的整体卓越效用1验证了一个关键假设,即捕获模型无知对于确保 LLM 安全和保真度,比单纯依赖单个输出的序列概率从根本上更为重要。然而,这种卓越性能是有代价的:由于每个查询需要多次生成传递,这些方法通常需要中等到高的计算量5。虽然生成多个样本的计算开销可能是一个主要缺点,特别是在延迟关键的设置中,但这些方法代表了后验不确定性量化可实现性能的强大上限5。因此,它们最好保留给那些最高不确定性估计精度能证明增加的延迟和计算支出是合理的的高风险应用。
3.4 CCP(对比置信预测)的异常有效性
最重要的实证发现之一与对比置信预测(CCP)的性能有关。这种方法通常以接近低/中等的计算需求运行,特别在声明级事实核查任务中表现出最佳结果1(看补充资料,声明级UQ和CCP的原理就是针对每一个片段甚至词元进行不确定性量化。)。(看补充资料,声明级UQ和CCP的原理就是针对每一个片段甚至词元进行不确定性量化。)
CCP 在专业幻觉检测领域的高性能至关重要。它代表了权衡曲线上的一个最佳点,在这一狭窄但关键的任务中提供了高效率——优于许多一般的样本多样性方法——同时避免了与为每个查询生成数十个不同样本相关的过高延迟开销1。对于主要专注于检测捏造声明的实时、高吞吐量系统,CCP 提供了一个专业、高效的解决方案。
3.5 UQ 分类和计算权衡总结
UQ 方法的架构差异导致了不同的资源配置文件和最佳部署场景,总结如下:
表 1:LM-Polygraph 基准测试的 UQ 方法:分类和资源需求
| 类型 | 类别 | 方法示例 | 计算成本 | 需要训练数据 | 级别 | 部署策略含义 |
|---|---|---|---|---|---|---|
| 白盒 | 基于信息 | MSP, 困惑度, 标记熵 | 低 | 否 | 序列/声明 | 吞吐量的默认低延迟过滤器1 |
| 白盒 | 基于信息 | PMI | 中 | 否 | 序列/声明 | 增强的低到中等成本信息分析1 |
| 白盒 | 样本多样性 | MC-NSE, 语义熵, SAR | 中到高 | 否 | 序列/声明 | 保留用于需要最大精度的高风险、复杂推理任务1 |
| 黑盒 | 基于密度 | DetMat, EigValLaplacian | 中 | 是 (或校准) | 序列 | 对于无法通过对数访问的模型至关重要 (API 锁定的 LLM)(这种方法实际上就是有正确答案,对比评估模型的回答效果,和模型评测是一样的。)4(这种方法实际上就是有正确答案,对比评估模型的回答效果,和模型评测是一样的。) |
| 反射式 | 口述置信度 | 单样本 VC | 低 (仅推理) | 否 | 序列 | 通常不可靠且过于自信的基线(很可惜,成本最低的方法效果自然是最差的。)1(很可惜,成本最低的方法效果自然是最差的。) |
4. 指标和校准:评估 UQ 有效性
LM-Polygraph 基准利用了一套精密的指标,这些指标是为 UQ 的特定目标量身定制的:操作效用(选择性预测)、判别能力(幻觉检测)和可解释性(校准)。(这一章节才是论文的核心工作,如何评估不同的不确定性量化方法。)
4.1 选择性生成性能指标:预测-拒绝率(PRR)
评估选择性问答和生成性能的主要指标是预测-拒绝曲线及其计算面积,即预测-拒绝率(PRR)1。
PRR 量化了在拒绝指定比例的最不确定数据后,保留下来的输出的平均质量。(给不同方法一个机会放弃一部分犹豫的回答,对剩下的回答进行评估。)实现高 PRR 的 UQ 方法具有卓越的排序能力,这意味着它能够以高保真度有效地识别和标记低质量输出,从而在给定拒绝阈值下最大化保留输出质量的增益。该指标是操作安全效用的直接衡量:它允许系统架构师精确确定通过选择放弃(例如)5% 或 10% 最不确定的预测,可以获得多少原始性能(例如,准确率或 F1 分数)增益,从而实现受控系统部署1。
4.2 声明核查的判别指标:ROC-AUC 和 PR-AUC
对于专注于幻觉检测的声明级 UQ 的专业任务,性能是使用接收者操作特征曲线下面积(ROC-AUC)和精确率-召回率曲线下面积(PR-AUC)进行评估的1。在这种情况下,未经验证的声明(幻觉或虚假信息)被指定为正类1。
PR-AUC 的选择对于评估幻觉检测器尤为重要。(参考补充内容中的“声明级核查判别指标”)在大多数高质量的 LLM 部署中,幻觉(正类)的比率相对较低。PR-AUC 对精确率和召回率之间的平衡高度敏感,特别是在处理不平衡数据集以及最小化假阴性(未能识别关键幻觉)至关重要时。使用 PR-AUC 确保了基准严格评估方法准确标记关键故障而没有过度虚假警报(低精确率)的能力,提供了核心幻觉缓解有效性的稳健衡量。
4.3 置信度归一化和校准:实现可解释的分数
可信赖 AI 的一个关键方面不仅是不确定性的预测,而且是以一种对最终用户而言可解释且可靠的方式呈现不确定性。原始的不确定性分数,例如熵或方差,通常缺乏与预期质量的直接、线性相关性。LM-Polygraph 基准通过支持评估置信度归一化方法提供可解释分数的能力来解决这个问题1。
校准质量是使用归一化质量指标和置信度分数之间的均方误差(MSE)来衡量的1。较低的 MSE 表示更好的校准,意味着数字置信度分数准确地反映了输出的经验预期质量。基于等渗概率校准曲线(PCC)的归一化是有效的,这一发现是关键的。(什么是PCC曲线?看补充内容,原理就是用一个回归模型将不同方法得到的模型输出的准确率进行拟合,或者说以回答的准确率为中介。)该方法不会降低系统的操作性能(保持 PRR),同时改善了置信度校准(降低 MSE)1。这一技术成功为消除通过选择性预测最大化原始性能增益与提供可靠的、面向用户的置信度分数之间的传统冲突提供了一条途径,从而增强了模型的元认知并培养了用户信任。
表 2:LM-Polygraph 评估指标和解释
| 指标 | 目标应用 | 目标和解释 | 理想值 | 在可信赖 AI 中的作用 |
|---|---|---|---|---|
| 预测-拒绝率 (PRR) | 选择性生成/问答 | 量化弃权效率;衡量每个拒绝率保留的质量1。 | 越高越好 | 通过允许系统推迟高风险输入来确保操作安全。 |
| ROC-AUC / PR-AUC | 声明级事实核查 | 衡量 UQ 方法对幻觉(正类)进行排序和识别的能力1。 | 接近 1.0 | 幻觉缓解有效性的核心衡量。 |
| 均方误差 (MSE) | 置信度归一化/校准 | 衡量所声明置信度与经验准确率的一致性(校准误差)1。 | 接近 0.0 | 建立模型的元认知和用户对置信度分数的信任1。 |
5. 经验发现:性能层次结构与任务依赖性
对十一个任务进行的大规模实证调查揭示了 UQ 家族之间清晰的性能层次结构,并证明了最有效的 UQ 策略在很大程度上取决于具体的任务结构5。
5.1 表现最佳的 UQ 家族综合
结果的总体综合确定了三个高度相关的 UQ 家族(借鉴思路即可:样本多样性的原理就是对比多次回答;对比置信预测就是将输出和回答进行比对,可能是分拆后的比对;最大序列概率就是计算白盒模型生成序列的概率。):
- 样本多样性方法: 这些技术利用跨多个生成响应观察到的语义多样性,被确定为总体上最有效的 UQ 方法1。它们的优势在于它们能够成功捕获认知不确定性,这对于复杂任务中的生成错误具有高度预测性。
- 对比置信预测(CCP): 这种方法在高度专业化但计算要求高的事实核查任务中表现出最佳结果1。至关重要的是,CCP 在保持高准确性的同时维持了有竞争力的计算效率,使其成为无法容忍完全语义采样的高延迟的实时幻觉检测系统的理想候选者。
- 最大序列概率(MSP): 尽管其简单且计算成本低,但 MSP 在所有评估任务中被证明是一个非常强大和稳健的基线1。(但是计算最大序列概率要求用白盒模型,工程上黑盒模型可能更常见。)其稳健性要求将其保留在标准评估协议中,并作为任何部署系统中初始、低延迟过滤层的主要候选者。
5.2 任务粒度的影响:推理与二元决策
该研究提供了关键证据,证明了模型置信度与实际性能之间存在统计上的脱钩,尤其随着任务复杂性的增加5。
在最简单的评估设置中,例如像 BoolQ 这样的二元决策任务,各种 UQ 方法的性能紧密聚集。像 MSP 这样的简单基于信息的方法在准确性上与像 CoCoA(样本多样性方法的概念近亲)这样的多样本聚合技术达到了均等,尽管 CoCoA 仍然为选择性预测提供了卓越的排序信号5。
形成鲜明对比的是,在评估的最复杂的设置中——例如 GSM8K 中发现的多步推理任务——探索性方法的优越性变得明显5。单样本方法,包括那些依赖口述置信度(反射式方法)的方法,表现出高度的过度自信和较差的判别能力。多样本聚合技术的应用显著提高了准确性以及高风险输入的总体判别能力5(实质就是对比出真知。)。(实质就是对比出真知。)
这一发现证实了一个关键的架构要求:源自内部标记概率(MSP)或内部自我反思(反射式方法)的置信度分数与实际成功率在统计上是脱钩的,当任务需要多步、复杂的逻辑推理时。对于处理复杂任务的生成模型,有效的不确定性量化必须涉及结构化探索和聚合(采样) ,以揭示模型的认知不确定性。
5.3 反射式(口述)不确定性的缺陷
调查证实,反射式方法(提示 LLM 明确说明其不确定性)通常表现不佳。它们经常以高度过度自信为特征,并且判别能力弱1。
这一缺陷暗示,简单地指示模型进行自我反思并不能可靠地生成准确的元认知信号。模型原始输出的置信度并不是衡量其在大多数任务中成功的可靠指标。然而,该研究指出一个关键的细微差别:对于异常大的 LLM,例如 GPT-4o-mini,使用口述技术可能成为一种合理的方法1。这表明反射式不确定性的质量可能是一种规模特性——只有具有足够内部能力和训练来模拟可靠元认知的模型才能使反射式 UQ 可行。(强大的模型才会认识到自己回答的不足之处,越强大越能认清自我。)尽管如此,对于大多数传统和开源 LLM,反射式方法应被视为不可靠的基线指标,并且仅应考虑用于经验证它们符合特定任务最低校准阈值的专有、API 锁定的模型。
表 3:关键 UQ 家族的比较性能总结
| UQ 方法类型 | 总体效用 | 计算配置文件 | 主要用例 | 经验行为 |
|---|---|---|---|---|
| 样本多样性 | 最高 | 中/高 | 通用 LLM 安全,复杂推理 (GSM8K)1 | 最强性能;捕获认知不确定性至关重要5 |
| CCP (特定) | 高 (事实核查) | 高效 (低/中) | 专用实时幻觉检测1 | 声明核查中效用和效率的最佳平衡1 |
| MSP | 强大基线 | 非常低 | 低延迟过滤,简单任务 (BoolQ)1 | 其稳健性要求将其包含在所有评估协议中1 |
| 反射式方法 | 低 | 低 | 不适用 (仅适用于特定的、大型专有 LLM)1 | 高度过度自信,判别能力差5 |
6. 实际集成和开源实用性 (LM-Polygraph 框架)
LM-Polygraph 框架不仅仅是理论贡献,而是一个完整的、开源的工程实用程序,专为实际应用而设计1。其开发策略优先考虑灵活性和易于集成到现有研究和开发流程中。
6.1 技术实施和设置
该框架是在 MIT 许可下提供的,促进了不受限制的商业和学术使用4。安装流程简化,通常涉及标准的 Python 虚拟环境和直接从 PyPI 或 GitHub 仓库 \(\text{[https://github.com/IINemo/lm-polygraph](https://github.com/IINemo/lm-polygraph)}\) 执行简单的 \(\text{pip install}\) 命令1。代码库主要用 Python 编写,证实了与标准计算语言学基础设施的兼容性4。
6.2 配置模型使用(白盒与黑盒)
该架构对不同级别模型访问权限的支持是一个关键优势4。
对于白盒配置,来自 HuggingFace 等仓库的模型及其相关的分词器是通过 \(\text{WhiteboxModel}\) 类初始化的。此设置对于启用整个 UQ 估计器套件至关重要,包括高性能的样本多样性方法和需要内部对数概率和对数的各种基于信息的技术4。
对于涉及商业或不可访问 LLM 的部署场景,黑盒能力提供了基本功能。\(\text{BlackboxModel.from\_openai}\) 方法允许与任何兼容 OpenAI 的 API 服务集成。这包括对可能提供或不提供内部对数概率的模型的支持。对于完全锁定的模型,该框架利用基于密度的估计器,例如 \(\text{DetMat()}\) 或 \(\text{EigValLaplacian()}\),它们纯粹从输出文本特征推断不确定性4。此能力使得 LM-Polygraph 适用于模型访问权限差异显著的异构环境。
6.3 利用评估流程
该框架提供了用于系统化基准测试的稳健工具。命令行实用程序 \(\text{polygraph\_eval}\) 使用配置文件(例如 YAML)来指定模型路径、数据集和要测试的特定 UQ 估计器,从而组织标准的评估运行4。
该框架解决的一个重要实际考虑因素是加速技术的集成。通过支持使用 \(\text{vLLM}\) 作为推理后端,该基准承认了多样本技术带来的计算挑战。运行这些估计器涉及为每个查询生成大量样本,这需要高速基础设施;对 \(\text{vLLM}\) 的支持确保了高效率 UQ 方法的资源密集型性质不会使基准测试过程变得过慢或成本过高4。
最后,该基准为结果分析提供了全面支持,包括用于预处理的数据集构建器和用于生成汇总表和图表的可视化笔记本(例如 \(\text{result\_tables.ipynb}\))4。此实用程序允许研究人员轻松复制、扩展和总结原始研究提供的广泛性能分析。
7. 批判性评估、更广泛的影响和部署策略
7.1 回应学术批评和增强解释
一项外部学术批评指出,原始论文,特别是其实验部分,缺乏系统分析,读起来更像是一个图表和设置的列表,而不是解释的综合6。此外,批评对观察到的认知不确定性增加的理论一致性提出了质疑6。
这一批评强调了从业者和系统架构师必须超越原始基准指标,将发现结果综合为可操作的战略结论。LM-Polygraph 结果的全部价值并非体现在指标本身,而是在于通过计算资源分配与性能增益的视角进行解释时,与特定应用的风险概况相匹配。例如,样本多样性方法的高成本必须通过复杂推理任务的高风险来证明是合理的;否则,稳健、低成本的 MSP 基线是更优越的经济选择。基准提供了数据;战略性解释决定了部署策略。
7.2 跨领域验证和对 AI 安全的扩展性
LM-Polygraph 解决的挑战并非计算语言学所独有。系统性的不确定性量化基准测试在所有关键 AI 领域(例如医学图像分割7)中正变得越来越重要。
虽然医疗 AI 使用领域特定的指标——例如不确定性混淆指标(UCM)、预期分割校准误差(ESCE)和谐波 Dice(HDice)——但其方法论和基本目标在结构上与 LM-Polygraph 建立的那些是相同的7。这两个领域都需要跨粒度级别进行系统评估:从像素/标记级别,到样本/序列级别,最终到模型级别。此外,这两个领域都旨在模拟和优化不确定性辅助的临床或操作工作流程,包括模型选择、样本筛选和风险可视化7。这种趋同验证了 LM-Polygraph 的全面和系统方法是一种普遍的方法论,对于在 AI 系统中实现可靠性和可信赖性是必需的,无论具体模态如何。因此,LLM 基准为在更广泛的 AI 安全社区中推进标准化 UQ 提供了蓝图。
7.3 可信赖 LLM 部署的战略建议
基于经验发现和计算权衡分析,可以制定一个清晰的分层策略,用于在大型语言模型应用中部署 UQ:
-
强制要求校准以建立用户信任: 置信度归一化,特别是利用基于等渗概率校准曲线(PCC)的方法,对于暴露给最终用户或自动化决策系统的任何 UQ 分数都必须是强制性步骤。这种做法确保了归一化置信度分数提供更好的校准(较低的 MSE),同时不降低模型的运营效用(保持 PRR),从而恢复用户信任并最大化可解释性1。
-
基于风险和延迟的分层 UQ 实施: 系统架构师应实施一个根据任务复杂性量身定制的分层 UQ 系统:
- 第 1 层(默认过滤): 使用最大序列概率(MSP)作为初始、低延迟过滤器。其跨任务的稳健性使其成为处理简单决策和高吞吐量环境的理想选择。
- 第 2 层(幻觉防御): 专门针对声明级核查和幻觉检测部署对比置信预测(CCP)。CCP 为此专业、关键的安全功能提供了高效率和计算效率的最佳平衡1。
- 第 3 层(高风险推理): 将高成本的样本多样性方法(例如,语义熵)保留用于涉及复杂、多步逻辑推理(如 GSM8K)的关键任务应用。在这些场景中,捕获认知不确定性的必要性证明了显著计算开销的合理性5。
-
未来方向:认知捕获的效率: 为 UQ 生成多个样本的持续计算开销仍然是高性能部署的主要瓶颈5。未来的研究必须侧重于开发高效、低延迟的样本多样性方法近似,以将其卓越的效用带到更广泛的实时应用中,从而解决 LM-Polygraph 基准确定的核心权衡问题。
补充内容:声明级UQ和CCP原理
好的,当然可以!我用一个简单的例子和比喻来形象地解释声明级 UQ 和 CCP 原理。
声明级 UQ:像一个“细致的质检员”
概念比喻:美食评论家
想象你是一位美食评论家(LLM) ,写了一篇关于一道菜的评论。
| 元素 | 传统 UQ (整体不确定性) | 声明级 UQ (细致不确定性) |
|---|---|---|
| 评估目标 | 整篇评论(整个输出) | 评论中的每一个句子(原子声明) |
| 结果 | “我对这篇评论的整体真实性有 60% 的信心。” | “我对‘蘑菇很新鲜’这句话有 95% 的信心;我对‘酱汁是用进口红酒调制的’这句话只有 30% 的信心。” |
原理: 传统 UQ 只能告诉你整个菜品(整个回答)是否可靠,如果有一个小错,它可能就直接否定了整个菜。声明级 UQ 的作用是,把菜拆分成一个个事实(声明) ,只对那些“可疑”或“错误”的声明(如“酱汁是用进口红酒调制的”)给出高不确定性评分,而不影响那些正确的部分。
CCP 原理:像一位“自言自语的厨师”
**对比置信预测(CCP)是一种实现上述“细致质检”的高效方法。它不需要额外的工具或训练,而是利用 LLM 在生成每个词时“自言自语”**的置信度。
原理比喻:厨师的下刀力度
想象你的**美食评论家(LLM)**正在写评论,而 CCP 记录的是他在写每个词时的犹豫程度。
-
逐词生成:
- 当他写下“这道菜的蘑菇很…”时,他非常确定,下笔(生成词元)时力度很大(概率高,不确定性低) 。
- 当他写下“酱汁是用进口红酒…”时,他开始回忆,有点心虚,下笔时力度很小(概率低,不确定性高) 。
-
聚合计算:
- 声明一(蘑菇很新鲜):这句话由一系列下笔力度很强的词语组成,CCP 将这些强力度聚合起来,得出这条声明的置信度很高。
- 声明二(酱汁是用进口红酒调制的):这句话包含了力度很弱的词语,CCP 聚合后得出这条声明的置信度很低(即不确定性很高)。
核心结论:
- CCP 不看外部世界,它只看 LLM 自己在生成时有没有“犹豫”。
- 犹豫越大 (词元概率越低) \(\rightarrow\) 不确定性越高 \(\rightarrow\) 这条声明越可能是幻觉或错误。
因此,CCP 通过高效地追踪和聚合 LLM 在生成特定声明时内部的概率信号,实现了精确的声明级不确定性判断。
您想知道还有哪些其他方法(例如,基于集合的方法或基于外部事实核查的方法)也被用来进行声明级 UQ 吗?
声明核查的场景:大海捞针的比喻
当然,我用一个更形象的例子来帮助您理解 PR-AUC 为什么在声明核查中比 ROC-AUC 更重要。
想象你是一家媒体公司的事实核查总监,你的任务是检查 LLM 每天生成的 1000 篇报道。
- 在这 1000 篇报道中,只有 10 篇(1%)包含了事实性错误(即幻觉或“错误声明”)。
- UQ 方法的作用就像一台**“错误筛选机”**,它根据不确定性分数,从 1000 篇报道中挑出它认为最可疑的 100 篇。
1. ROC-AUC 的视角:公平竞赛
ROC-AUC 关心的是:你的筛选机能否在所有情况下,把错误的和正确的报道分开。
- 它评估的是整体的排序能力,就好比你在一个平衡的房间里(50% 错误,50% 正确),你的筛选机能将错误报道排在正确报道前面的概率。
- 问题: 在我们的实际场景中(1% 错误),一个非常粗糙的筛选机,如果它将 所有 1000 篇报道 都标记为“高不确定性”,它的 ROC-AUC 仍然可能看起来不错。因为它没有将 正确报道 的数量考虑进去(忽略了大规模的负例)。
2. PR-AUC 的视角:注重效率和精准度
PR-AUC 关注的是你筛选机在少数错误报道上的表现,它对误报(将正确报道误判为错误)非常敏感。
-
查准率 (Precision): 在你筛选机挑出的 100 篇可疑报道中,到底有多少是真错误?
- 如果 10 篇真错误报道都在这 100 篇里,但其中有 90 篇是完全正确的报道(误报),那么你的查准率就很低(10/100 = 10%)。
- 在实战中,查准率太低意味着浪费了人工核查的时间。
-
召回率 (Recall): 10 篇真错误报道,你挑出了多少?
- 如果只挑出了 5 篇,召回率就是 50%,意味着你漏掉了一半的幻觉。
为什么 PR-AUC 更重要?
PR-AUC 曲线的面积只有在查准率和召回率都高时才会大。
- 在一个幻觉极其稀少的环境中(\(1\%\) 的错误率),如果你的 UQ 方法将大量正确的声明也标记为高不确定性(即 假阳性 (FP) 过多),这会迅速拉低查准率。
- PR-AUC 能准确反映出这种“误报代价” :如果一个 UQ 方法在查出所有 10 篇错误报道的同时,误伤了 900 篇正确报道,它的 PR-AUC 会非常低,因为它缺乏实用性。
结论: 在声明核查(即检测 LLM 幻觉)这种数据高度不平衡的“大海捞针”任务中,PR-AUC 能更真实地反映 UQ 方法的效率和可靠性。一个高 PR-AUC 的 UQ 方法意味着它既能找到大部分的幻觉,又不会产生太多的误报来浪费人力。
核心原理:校准置信度,使其直接反映质量
您提到了论文中用于不确定性归一化(Uncertainty Normalization)和校准(Calibration)的一个关键方法:基于等渗性能校准置信度(Isotonic Performance-Calibrated Confidence, Isotonic PCC) 。
这个方法的作用,是把不同 UQ 方法输出的、范围不固定的原始不确定性分数,转化为一个可解释、可比较的 \(0\) 到 \(1\) 之间的置信度分数。
Isotonic PCC 解决的核心问题是:
问题: 不同的 UQ 方法(如 CCP、熵、集合方法)计算出的不确定性分数(\(u\))的数值范围和含义完全不同。某个方法输出 \(u=0.5\) 可能代表“极度不确定”,而另一个方法可能输出 \(u=100\) 才代表“极度不确定”。我们无法直接比较 \(0.5\) 和 \(100\) 谁更差。
目标: 将这个不确定性分数 \(u\) 转化为一个校准后的置信度 \(c\),让 \(c\) 的数值直接等于该模型输出正确的概率(或预期质量)。
1. 概念比喻:把不同的“恐惧指数”统一到“正确率”
想象你是一个老师,批改学生(LLM)的测试。你有三种不同的**测谎仪(UQ 方法)**来评估学生答案的可信度:
- 测谎仪 A (CCP): 输出分数范围是 \(0\) 到 \(1\)。
- 测谎仪 B (熵): 输出分数范围是 \(0\) 到 \(100\)。
- 测谎仪 C (集合): 输出分数范围是 \(-50\) 到 \(50\)。
Isotonic PCC 的作用: 不管测谎仪输出什么分数,Isotonic PCC 都能把这个分数转化为一个统一的指标: “根据这个分数,预测学生答对的概率是 X%。”
- 如果测谎仪 B 输出 \(90\),Isotonic PCC 可能会说:“这意味着学生答对的概率是 10% 。”
- 如果测谎仪 C 输出 \(-40\),Isotonic PCC 可能会说:“这意味着学生答对的概率是 85% 。”
2. Isotonic PCC 的具体步骤(如何实现校准)
Isotonic PCC 通过在校准数据集上拟合一个**等渗回归(Isotonic Regression)**模型来实现这种转换。
A. 收集原始数据(训练 Isotonic PCC)
在开始正式评估之前,你需要一个校准集(Calib. Set),包括数百个问答对,并且知道每个答案的真实质量。
| 样本 i | 原始不确定性分数 (ui) (由 UQ 方法得出) | 真实质量分数 (qi) (真实答案的正确性) |
|---|---|---|
| 1 | u1=0.8 | q1=1.0 (完全正确) |
| 2 | u2=35.0 | q2=0.0 (完全错误) |
| 3 | u3=0.3 | q3=0.9 (几乎正确) |
| 4 | u4=40.0 | q4=0.2 (基本错误) |
B. 拟合等渗回归(Isotonic Regression)
等渗回归 (Isotonic Regression, CIR) 是一种特殊的回归技术,它拟合出一条单调递增(或递减)的函数曲线。
- 拟合目标: 拟合一个函数 \(c(u)\),使得原始不确定性 \(u\) 越低,预测的质量 \(q\) 越高,反之亦然。
- “等渗”的含义: 曲线永远不会倒退。如果 \(u_{A}\) 比 \(u_{B}\) 低(即 \(A\) 更确定),那么 \(c(u_{A})\) 必须大于或等于 \(c(u_{B})\)(即 \(A\) 的置信度必须更高或相等)。这保证了原始 UQ 方法的排序信息得以保留。
C. 归一化和比较
一旦 Isotonic PCC 模型 \(c(u)\) 被拟合好,对于任何一个新的模型输出,你只需计算其原始不确定性分数 \(u_{new}\),然后代入该函数:
- \(c_{new}\) 的范围被自动限制在 \([0, 1]\) 之间。
- 这个 \(c_{new}\) 不仅仅是一个 \(0-1\) 之间的数字,它是一个校准后的置信度,直接代表模型预测的正确概率。
通过这种方式,来自 CCP、熵或任何其他 UQ 方法的原始分数(如 \(0.5\) 或 \(100\))都被统一且有意义地转换成一个可直接比较的正确率百分比,从而实现了不同 UQ 方法结果的公正比较。
浙公网安备 33010602011771号