思维链推理自动化检测大模型幻觉

自动化幻觉检测与思维链推理

当大型语言模型(LLM)被提示诸如"圣约翰草可能与哪些药物发生相互作用?"的请求时,它不会搜索经过医学验证的药物相互作用列表(除非经过专门训练),而是根据与圣约翰草相关的词汇分布生成列表。结果很可能是真实药物与潜在虚构药物的混合,具有不同程度的相互作用风险。这类LLM幻觉——听起来合理但可验证为错误的断言或主张——仍然阻碍着LLM的商业化应用。虽然在医疗保健等领域有减少幻觉的方法,但识别和测量幻觉的需求仍然是生成式AI安全使用的关键。

在最近一次自然语言处理实证方法会议(EMNLP)上发表的论文中,描述了一种名为HalluMeasure的幻觉测量方法,该方法采用了三种技术的新颖组合:声明级评估、思维链推理和幻觉的语言错误类型分类。

HalluMeasure首先使用声明提取模型将LLM响应分解为一组声明。通过使用单独的声明分类模型,通过将声明与上下文(与请求相关的检索文本,同样输入分类模型)进行比较,将声明分为五个关键类别(支持、缺失、矛盾、部分支持和不可评估)。此外,HalluMeasure将声明分为10种不同的语言错误类型(例如实体、时间和过度泛化),提供对幻觉错误的细粒度分析。最后,通过测量不支持声明(即被分配为非支持类别的声明)的比例并计算细粒度错误类型的分布来生成聚合幻觉分数。这种分布为LLM构建者提供了有关其模型所犯错误性质的有价值见解,促进针对性改进。

将响应分解为声明

该方法的第一步是将LLM响应分解为一组声明。"声明"的直观定义是可以根据上下文进行评估的最小信息单元;通常,它是带有主语和(可选)宾语的单个谓词。

选择在声明级别进行评估是因为单个声明的分类提高了幻觉检测准确性,并且声明的更高原子性允许更精确的测量和幻觉定位。与现有方法不同,该方法直接从完整响应文本中提取声明列表。

声明提取模型使用少样本提示,从初始指令开始,随后是一组概述任务要求的规则。还包括一组示例响应及其手动提取的声明。这种全面的提示有效地教导LLM(无需更新模型权重)从任何给定响应中准确提取声明。一旦声明被提取,就按幻觉类型进行分类。

声明分类中的高级推理

最初遵循传统方法直接提示LLM对提取的声明进行分类,但这未达到性能标准。因此转向思维链(CoT)推理,其中要求LLM不仅执行任务还要证明其采取的每个行动。这已被证明不仅可以提高LLM性能,还可以提高模型可解释性。

开发了一个五步CoT提示,结合了声明分类的精选示例(少样本提示)和指示声明分类LLM彻底检查每个声明对参考上下文的忠实度并记录每次检查背后的推理的步骤。

实施后,在流行的SummEval基准数据集上将HalluMeasure的性能与其他可用解决方案进行了比较。结果清楚地显示了少样本CoT提示带来的性能改进(从0.78提高到0.8,提高了2个百分点),使我们更接近大规模自动识别LLM幻觉。

细粒度错误分类

HalluMeasure通过提供对所产生的幻觉类型的更深入见解,实现增强LLM可靠性的更有针对性解决方案。除了二元分类或常用的自然语言推理(NLI)类别(支持、反驳和信息不足)之外,提出了一套通过分析常见LLM幻觉中的语言模式开发的新错误类型。例如,一种提议的标签类型是时间推理,适用于诸如响应声称正在使用新创新,而上下文声称新创新将在未来使用的情况。

此外,了解错误类型在LLM响应中的分布允许更有针对性的幻觉缓解。例如,如果大多数错误声明与上下文中的特定断言相矛盾,可以探索常见原因——例如,允许对话中进行大量(例如>10轮)轮次。如果较少轮次减少了这种错误类型,限制轮次数量或使用先前轮次的摘要可以缓解幻觉。

虽然HalluMeasure可以为科学家提供模型幻觉来源的见解,但生成式AI仍然存在不断演变的风险。因此,通过探索无参考检测、采用针对特定用例定制的动态少样本提示技术以及整合代理AI框架,继续在负责任AI领域推动创新。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-09-05 09:01  CodeShare  阅读(23)  评论(0)    收藏  举报