2025 年 12月 16 日随笔档案 - 马儿慢些走

2025年12月16日 #

【202503】基于 LM-Polygraph 的大语言模型不确定性量化基准测试综合分析

摘要：研究主题：对大型语言模型（LLMs）的不确定性量化（Uncertainty Quantification, UQ）方法进行基准测试。核心内容：引入了一个新的基准测试，该基准基于 LM-Polygraph 框架，旨在对LLM在各种文本生成任务（如选择性问答、选择性生成、声明级事实核查）中的UQ技术进行可控且一致的评估。(“大语言模型的不确定性量化”就是对模型和任务的一种评估，本文是对评估方法的评估。) 方法与评估：实现了最先进的UQ基线集合，并支持评估置信度归一化方法（Normalization Methods）的解释性。作者通过该基准对UQ和归一化技术进行了大规模实证研究，涵盖了十一个数据集，并确定了最有效的方法。目标：解决当前LLM UQ研究中技术和评估方法分散的问题，为研究人员提供一个更可靠、一致的评估环境。阅读全文

posted @ 2025-12-16 16:26 马儿慢些走阅读(12) 评论(0) 推荐(0)

马儿慢些走

【202503】基于 LM-Polygraph 的大语言模型不确定性量化基准测试综合分析

导航

公告