马儿慢些走

人生惶惶,悲喜一场。

2025年12月16日 #

【202503】基于 LM-Polygraph 的大语言模型不确定性量化基准测试综合分析

摘要: 研究主题: 对大型语言模型(LLMs)的不确定性量化(Uncertainty Quantification, UQ)方法进行基准测试。 核心内容: 引入了一个新的基准测试,该基准基于 LM-Polygraph 框架,旨在对LLM在各种文本生成任务(如选择性问答、选择性生成、声明级事实核查)中的UQ技术进行可控且一致的评估。(“大语言模型的不确定性量化”就是对模型和任务的一种评估,本文是对评估方法的评估。) 方法与评估: 实现了最先进的UQ基线集合,并支持评估置信度归一化方法(Normalization Methods)的解释性。作者通过该基准对UQ和归一化技术进行了大规模实证研究,涵盖了十一个数据集,并确定了最有效的方法。 目标: 解决当前LLM UQ研究中技术和评估方法分散的问题,为研究人员提供一个更可靠、一致的评估环境。 阅读全文

posted @ 2025-12-16 16:26 马儿慢些走 阅读(12) 评论(0) 推荐(0)

导航