论文解读-《A Survey on Hallucination in Large Language Models Principles, Taxonomy, Challenges, and Open Questions》

1. 论文介绍

论文题目: A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
论文领域:LLM
论文发表:ACM Transactions on Information Systems (TOIS) 2024
论文背景:

llmhallucinate01

2. 论文摘要

大型语言模型(LLM)的出现标志着自然语言处理(NLP)的重大突破,推动了信息获取的范式转换。然而,LLM容易产生幻觉,产生看似合理但不真实的内容。这一现象引起了人们对LLM在现实世界信息检索系统中可靠性的关注,并吸引了大量的研究来检测和减轻这种幻觉。鉴于LLM固有的开放式通用属性,LLM幻觉呈现出不同于先前任务特定模型的独特挑战。这种分歧突出了对LLM幻觉的最新进展进行细致理解和全面概述的紧迫性。在这项调查中,我们首先从一个创新的分类幻觉的时代LLM,然后深入研究的因素有助于幻觉。随后,我们提出了一个彻底的概述幻觉检测方法和基准。我们的讨论然后转移到有代表性的方法来减轻LLM幻觉。此外,我们深入研究了检索增强LLM在对抗幻觉方面面临的局限性,为开发更强大的IR系统提供了见解。最后,展望了LLM幻觉的研究方向,包括大视觉语言模型中的幻觉和LLM幻觉中知识边界的理解。

3. 相关介绍

3.1 LLM介绍

LLM 是指一系列通用模型,它们利用基于 Transformer 的语言模型架构,并在海量文本语料库上进行大量训练,通过扩展数据量和模型容量,LLM 提高了惊人的涌现能力,通常包括情境学习(ICL)、思维链提示和指令遵循。
LLM经历三个主要训练阶段:预训练、监督微调 (SFT) 和人类反馈强化学习 (RLHF)

(1)预训练
预训练被广泛认为是LLM获取知识和能力的基础阶段。在此阶段,LLM对序列中的后续标记进行自回归预测。通过对大量文本语料库的自我监督训练,LLM获得了语言句法知识、世界知识和推理能力,从而为进一步微调奠定了坚实的基础。
LLM的本质在于预测即将出现的单词的概率分布。准确的预测表明对知识的深刻掌握,转化为对世界的细致入微的理解。

(2)监督微调SFT
预训练的LLM从根本上充当了语句补全机,这可能导致LLM的下一个单词预测目标与用户获得所需响应的目标之间不一致。为了弥补这一差距,引入了有监督微调,其中涉及使用一组精心注释的(指令、响应)对进一步训练 LLM,从而增强 LLM 的能力并提高可控性。

(3)人类反馈强化学习
RLHF 采用偏好模型, 经过训练,可以在给定提示和一对人类标记的响应的情况下预测偏好排名。为了符合人类偏好,RLHF优化了LLM以生成输出,以最大化训练的偏好模型提供的奖励,通常采用强化学习算法。
这种将人类反馈集成到训练循环中可以有效增强LLM的一致性,引导它们产生高质量且无害的响应。

4. 大型语言模型中的幻觉

幻觉的概念可以追溯到病理学和心理学领域,被定义为对现实中不存在的实体或事件的感知。

由于LLM通常作为开放式系统发挥作用,幻觉的范围涵盖更广泛的概念,主要表现事实错误。这种转变需要重新评估和调整现有的幻觉分类法,旨在增强其在不断发展的LLM环境中的适应性。

整个文章的结构为

llmhallucinate02

4.1 划分

值得注意的是,传统自然语言生成 (NLG) 任务中的幻觉已被广泛研究, 幻觉定义为生成内容,这些内容要么是无意义的,要么是不忠实于所提供的源内容。这些幻觉分为两种类型: 内在幻觉(生成的输出与源内容相矛盾)和外在幻觉(无法从源验证生成的输出)。
(1)内在幻觉
内在幻觉与提供的源上下文直接冲突的模型输出有关。

(2)外在幻觉
外在幻觉涉及无法使用提供的源上下文或外部知识库进行验证的输出。这意味着生成的文本既不受可用信息的支持,也没有直接与可用信息相矛盾,从而使输出无法验证并可能具有误导性。
llmhallucinate03

根据LLM的独特属性来划分可以分为:事实幻觉和忠诚幻觉 。
(1)事实幻觉
现有的LLM偶尔会表现出产生与现实世界事实不一致或无法验证的输出的倾向,事实矛盾是指LLM的输出包含可以基于现实世界信息但存在矛盾的事实的情况。事实幻觉可以分为两个子类: 实体错误幻觉和关系错误幻觉 。
(a) 实体错误幻觉: 实体错误幻觉是指 LLM 生成的文本中包含错误实体的情况。
(b)关系错误幻觉: 关系错误幻觉是指 LLM 生成的文本包含实体之间错误关系的情况。

事实捏造是指LLM的输出包含无法根据既定的现实世界知识验证的事实的情况。这可以进一步分为不可验证的幻觉和过度声称的幻觉。
(a)不可验证的幻觉:涉及完全不存在或无法使用可用来源进行验证的陈述。
(b)过度声称幻觉涉:及由于主观偏见而缺乏普遍有效性的主张。

(2)忠诚幻觉 
LLM本质上经过训练,可以与用户指令保持一致。随着LLM的使用转向更加以用户为中心的应用程序,确保它们与用户提供的指令和上下文信息的一致性变得越来越重要。
忠诚幻觉可以分为三个子类:指令不一致,
(a)指令不一致是指 LLM 的输出偏离了用户的指令。虽然某些偏差可能符合安全准则,但此处的不一致表示与非恶意用户指令无意中不一致。
(b)上下文不一致是指 LLM 的输出与用户提供的上下文信息不符的情况。
(c)逻辑不一致会凸显出来,这在推理任务中经常观察到。这表现为推理步骤本身之间以及步骤与最终答案之间的不一致。

4.2 原因

深入探讨了LLM幻觉的根本原因,主要分为三个关键方面:数据、训练 和 推理。

4.2.1 数据幻觉

用于训练LLM的数据由两个主要组成部分组成:(1) 预训练数据,通过这些数据,LLM通过这些数据获得他们的一般能力和事实知识,以及 (2) 对齐数据,教LLM遵循用户指令并符合人类偏好。
尽管这些数据不断扩展了 LLM 的能力边界,但它们却在不经意间成为了 LLM 幻觉的主要贡献者。这主要表现在三个方面:有缺陷的预训练数据源中存在错误信息和偏见,预训练数据范围固有的知识边界以及劣质对齐数据引起的幻觉。
(a)错误信息和偏见
一方面,LLM的记忆能力表明他们有潜力捕捉深刻的世界知识。另一方面,在预训练数据中存在错误信息和偏见的背景下,它就会成为问题,并且可能会无意中被放大,表现为模仿性虚假和社会偏见的强化。
模仿的谎言:假新闻和毫无根据的谣言等错误信息在社交媒体平台上广泛传播,并逐渐成为LLM幻觉的重要因素。 对用于预训练的大规模语料库的需求不断增长,需要采用启发式数据收集方法。
社会偏见:除了错误信息之外,偏见也深深植根于社交媒体平台,表现形式多种多样,例如有偏见的招聘、偏见的新闻和仇恨的传播。 偏见和幻觉作为一种纯粹的负面现象,存在明显的差异,主要表现为刻板印象的蔓延和社会不平等。 然而,某些偏见与幻觉有着内在的联系,尤其是那些与性别和国籍。
如图

llmhallucinate04

(b)知识边界
知识边界的界限主要来自两个来源:1,LLM无法记住预训练过程中遇到的所有事实知识,尤其是不太频繁的长尾知识; 2,预训练数据本身的内在边界,其中不包括快速发展的世界知识或受版权法限制的内容。因此,当LLM遇到超出其有限知识边界的信息时,他们更容易产生幻觉。
长尾知识: 预训练语料库中的知识分布本质上是不均匀的,这导致LLM在不同类型的知识中表现出不同程度的熟练程度。
最新知识: 除了长尾知识的不足之外,LLM内部知识边界的另一个内在限制是它们对最新知识的能力有限。LLM中嵌入的事实知识表现出明确的时间界限,并且随着时间的推移可能会过时。
版权敏感知识:由于许可限制, 现有的LLM在法律上只能接受公开许可的语料库的培训或以其他方式可在不侵犯版权法的情况下使用。这种限制极大地影响了LLM可以合法获取的知识的广度和多样性。

(c)劣质对齐数据
研究发现通过SFT 获取新知识与幻觉增加之间存在相关性,这表明引入新的事实知识会鼓励LLM产生幻觉。此外,有研究对指令产生幻觉的影响进行了广泛的分析。研究结果表明,主要关注任务格式学习的特定任务指令往往会产生更高比例的幻觉反应。此外,过于复杂和多样化的指令也会导致幻觉增加。

4.2.2 训练产生的幻觉

不同的训练阶段赋予LLM各种能力,预训练的重点是获取通用表示和世界知识,而对齐使LLM能够更好地与用户指令和偏好保持一致。

(1)预训练产生的幻觉
此阶段采用因果语言建模目标,其中模型学习以单向、从左到右的方式仅根据前面的标记预测后续标记。在促进高效训练的同时,它本质上限制了捕捉复杂上下文依赖关系的能力,可能会增加幻觉出现的风险。
LLM偶尔会表现出跨越远程和短期依赖关系的不可预测的推理幻觉,这可能是由于软注意力的局限性造成的,随着序列长度的增加,注意力会在不同位置之间被稀释。

(2)监督微调产生的幻觉
LLM在预训练期间建立了固有的能力边界。SFT 寻求利用指令数据和相应的响应来解锁这些预先获得的能力。然而,当带注释的指令的需求超出模型预定义的能力边界时,就会出现挑战。
另一个重要原因在于模型无法拒绝。传统的 SFT 方法通常会强制模型完成每个响应,而不允许它们准确表达不确定性。因此,当面对超出其知识边界的查询时,这些模型更有可能捏造内容而不是拒绝它。这种知识边界的错位,加上无法表达不确定性,是导致 SFT 阶段幻觉发生的关键因素。

(3)RLHF 的幻觉
LLM的激活封装了与其生成的陈述的真实性相关的内部信念。然而,这些内部信念和生成的输出之间偶尔会出现不一致。即使LLM是根据人类反馈进行改进的,它们有时也会产生与其内部信念不同的输出。这种行为被称为阿谀奉承,强调了模型安抚人类评估者的倾向,而这往往以牺牲真实性为代价。

4.2.3 推理产生的幻觉

解码在预训练和对齐后体现 LLM 的能力方面起着重要作用。然而,解码策略中的某些缺陷可能会导致 LLM 幻觉。
(1)不完美的解码策略
LLM在生成高度创造性和多样化的内容方面表现出了非凡的能力,这种熟练程度在很大程度上取决于随机性在其解码策略中的关键作用。随机抽样是目前这些LLM采用的主流解码策略。将随机性纳入解码策略的基本原理源于认识到高似然序列通常会导致文本质量出人意料地低,这被称为似然陷阱。
解码策略中的随机性引入的多样性是有代价的,因为它与幻觉风险增加呈正相关。采样温度的升高会导致更均匀的标记概率分布,从而增加从分布尾部采样频率较低的标记的可能性。因此,这种对不经常出现的标记进行采样的趋势加剧了幻觉的风险。

(2)过度自信
先前对条件文本生成的研究强调了过度自信的问题,该问题源于过度关注部分生成的内容,往往以忠实遵守源上下文为代价优先考虑流畅性。虽然主要采用因果语言模型架构的LLM已经得到广泛应用,但过度自信现象仍然存在。在生成过程中,下一个单词的预测取决于语言模型上下文和部分生成的文本。
然而,正如先前的研究所证明的那样,语言模型通常在其注意力机制中表现出局部关注,优先考虑附近的单词,并导致上下文注意力的显着缺陷。此外,这种担忧在LLM中进一步放大,这些LLM表现出产生冗长而全面的响应的倾向。在这种情况下,甚至更容易产生忘记指令的风险。这种注意力不足会直接导致忠诚幻觉,其中模型输出的内容偏离了原始上下文。

(3)Softmax 瓶颈
大多数语言模型利用 softmax 层,该层在语言模型中对最后一层的表示进行作,并结合单词嵌入来计算与单词预测相关的最终概率。然而,基于 Softmax 的语言模型的功效受到公认的限制的阻碍,称为 Softmax 瓶颈。
其中 softmax 与分布式单词嵌入相结合会限制输出概率分布的表达能力给定上下文,从而阻止 LM 输出所需的分布。此外,Chang 和 McCallum 发现,当输出词嵌入空间内的所需分布表现出多种模式时,语言模型在准确确定所有模式中的单词作为前一个词的优先级方面面临挑战,这也带来了幻觉的风险。

(4)推理失败
除了长尾知识的挑战之外,知识的有效利用与推理能力有着千丝万缕的联系。例如,在多跳问答场景中,即使LLM拥有必要的知识,如果问题之间存在多个关联,由于其推理的局限性,它可能难以产生准确的结果。
有研究揭示了LLM中一种特定的推理失败,称为 “逆转诅咒 ”。具体来说,虽然当问题被表述为“A 是 B”时,模型可以正确回答,但当反之问“B 是 A”时,它表现出失败的逻辑推论。这种推理上的差异超出了简单的推理范围。

5. 幻觉检测和基准测试

有效测量LLM中的幻觉水平对于提高其可靠性至关重要。本节深入研究幻觉检测方法和评估LLM幻觉的基准

5.1 幻觉检测

现有的检测LLM幻觉的策略可以根据幻觉类型进行分类:(1)事实幻觉检测,旨在识别模型输出中的事实不准确之处,以及(2)忠实性幻觉检测,重点是评估模型输出对所提供上下文信息的忠实度。
(1)事实幻觉检测
事实幻觉检测涉及评估LLM的输出是否与现实世界的事实一致。典型方法通常分为两类: 事实核查 ,涉及根据可信知识来源验证生成的响应的真实性,以及不确定性估计,重点是通过内部不确定性信号检测事实不一致。
事实核查方法大致可分为两个不同的部分: 外部检索和内部核查 。

  • 外部检索:事实验证最直观的策略是外部检索。
  • 内部检查:鉴于其参数中编码的广泛事实知识,LLM已被探索为事实核查的事实知识来源。引入验证链 (CoVe),其中LLM首先为响应草案生成验证问题,然后利用其参数知识来评估答案与原始响应的一致性,从而检测潜在的不一致之处。

不确定性估计。 虽然许多幻觉检测方法依赖外部知识来源进行事实核查,但已经设计了几种方法来在零资源环境中解决这个问题,从而消除了检索的需要。这些策略背后的基本前提是,LLM幻觉的起源本质上与模型的不确定性有关。 因此,通过估计模型生成的事实内容的不确定性,检测幻觉变得可行。
llmhallucinate05

不确定性估计的方法大致可以分为两种方法:基于 LLM 内部状态和 LLM 行为。

  • LLM 内部状态:LLM 的内部状态可以作为其不确定性的信息指标,通常通过标记概率或熵等指标表现出来。Varshney 等人通过考虑这些概念中的最小标记概率来确定模型对量化的关键概念的不确定性。基本原理是低概率可以作为模型不确定性的有力指标,概念中存在的高概率标记的影响较小。
  • LLM 行为:当系统只能通过 API 调用访问时,可能无法访问输出的标记级概率分布。

(2)忠实性幻觉检测
确保LLM忠实地提供上下文或用户指令对于其在 IR 应用(从对话搜索到交互式对话系统)中的实际实用性至关重要。我们将现有的幻觉检测指标分为以下几组,a)基于事实,b)基于分类器,c)基于 QA,d)基于不确定性,e)基于 LLM提示词。
llmhallucinate06

(a)基于事实的指标
在评估忠实度的领域,最直观的方法之一是衡量生成内容和源内容之间关键事实的重叠。鉴于事实的多种表现形式,可以根据 n-gram、 实体和关系三元组来衡量忠实度。

(b)基于分类器的指标
除了计算事实重叠之外,评估模型生成忠实度的另一种直接方法涉及利用根据自然语言推理 (NLI) 和事实核查等相关任务的数据训练的分类器,或由综合特定任务的幻觉和忠实内容组成的数据。评估生成文本忠实度的基本原则是基于这样一种观点,即真正忠实的内容本质上应该由其源内容所包含。

(c)基于 QA 的指标
与基于分类器的指标相比,基于 QA 的指标最近因其增强捕获模型生成与其来源之间信息重叠的能力而受到关注。这些指标的运作方式是首先从 LLM 输出中的信息单元中选择目标答案,然后由问题生成模块生成问题。这些问题随后用于根据用户上下文生成源答案。最后,通过比较源答案和目标答案之间的匹配分数来计算LLM响应的忠实度。

(d)基于不确定性的指标
与用于检测事实幻觉的基于不确定性的方法相似,不确定性估计在评估忠实度中的应用已被广泛探索,通常以熵和对数概率为特征。对于基于熵的不确定性,Xiao 和 Wang揭示了数据到文本生成中的幻觉可能性与预测不确定性之间存在正相关关系,预测不确定性由深度集成估计。

(e)基于LLM的判断
LLM卓越的指令遵循能力凸显了它们自动评估的潜力。利用这种能力,研究人员尝试了评估模型生成内容的忠实度的新范式。通过为LLM提供具体的评估指南,并为他们提供模型生成的内容和源内容,他们可以有效地评估忠实度。

5.2 幻觉基准

全面概述了现有幻觉基准,可分为两个主要领域:幻觉评估基准,评估现有尖端LLM产生的幻觉程度,以及幻觉检测基准,专门设计用于评估现有幻觉检测方法的性能。

(1)幻觉评估基准
幻觉评估基准旨在量化LLM产生幻觉的倾向,特别强调给定上下文中的事实不准确和不一致。鉴于LLM擅长记忆高频计数知识,当前幻觉评估基准的主要重点是长尾知识和容易引发模仿性错误的挑战性问题。
(a)长尾事实知识
收集长尾事实问答样本的选择标准通常包括出现频率、新近度和特定领域。 关于出现频率,PopQA和 Head-to-Tail等基准是根据直接来自维基百科的实体受欢迎程度构建的。考虑到世界知识在不断发展,验证LLM关于当前世界的真实性变得至关重要。

(b)模仿虚假知识
模仿虚假知识专门用于通过对抗性提示来挑战LLM。这种方法以这样一种方式提出问题,即它们很容易因错误信念或误解而误导LLM。 两个最具代表性的基准是 TruthfulQA 和 HalluQA。TruthfulQA 包含 817 个问题,涵盖 38 个不同类别,例如健康、法律、金融和政治。它使用对抗性方法精心设计,旨在引发“模仿性谎言”——模型由于频繁出现在训练数据中而可能产生的误导性响应。基准测试分为两部分,其中一部分包含手动策划的问题,通过过滤掉 GPT-3 正确回答的问题来进一步细化,从而产生 437 个过滤问题。另一部分包括 380 个未过滤的非对抗性问题。

(2)幻觉检测基准
对于幻觉检测基准,大多数先前的研究主要集中在特定任务的幻觉上,例如抽象总结、数据到文本和机器翻译,它们可能无法准确反映幻觉检测策略的有效性,这凸显了需要重大转变,转向开发涵盖反映LLM时代的更复杂场景的基准。
例如,SelfCheckGPT-Wikibio提供了一个句子级数据集,该数据集是通过使用 GPT-3 生成合成维基百科文章而创建的,并手动注释事实性,突出了在传记领域检测幻觉的挑战。作为补充,HaluEval将自动生成与人工注释相结合,利用“采样然后过滤”的方法,评估LLM在 5,000 个一般用户查询和 30,000 个特定任务样本中识别幻觉的能力。

6. 幻觉缓解

根据幻觉的根本原因对这些方法进行了系统分类。专注于解决与数据相关的幻觉、 与训练相关的幻觉 和与推理相关的幻觉的方法。

6.1 减轻与数据相关的幻觉

与数据相关的幻觉通常是错误信息、偏见和知识差距的副产品,这些从根本上植根于预训练数据。提出了几种方法来减轻这种幻觉,主要分为三个不同的部分:(1) 旨在选择高质量数据以避免引入错误信息和偏见的数据过滤,(2) 模型编辑侧重于通过编辑模型参数注入最新知识,以及(3)利用外部非参数数据库进行知识供应的检索增强生成 。

(1)数据过滤
为了减少错误信息和偏见的存在,直观的方法包括从可靠来源仔细选择高质量的预训练数据。通过这种方式,我们可以确保数据的事实正确性,同时也最大限度地减少社会偏见的引入。
随着预训练数据集的不断扩展,手动管理成为一项挑战。鉴于学术或专业领域数据通常事实准确,因此收集高质量数据成为主要策略。
除了严格控制数据来源外,重复数据删除还是一个至关重要的过程。现有做法通常分为两类:完全重复和近乎重复。对于精确的重复项,最直接的方法涉及精确的子字符串匹配以识别相同的字符串。

(2)模型编辑
模型编辑引起了研究人员的日益关注,旨在通过结合额外的知识来纠正模型行为。当前的模型编辑技术可以分为两类: 定位然后编辑和元学习 。
(a)定位然后编辑。 定位然后编辑方法由两个阶段组成,首先定位模型参数的“有缺陷”部分,然后对其进行更新以改变模型的行为。例如,ROME通过销毁并随后恢复激活来定位与编辑相关的层,然后以直接的方式更新 FFN 的参数以编辑知识。
(b)元学习。 元学习方法训练一个外部超网络来预测原始模型的权重更新。然而,元学习方法通常需要额外的训练和内存成本,其中 MEND利用低秩分解和专门设计来减小超网络的大小。

模型编辑提供了一种精确的方法来减轻特定错误信息引起的幻觉,而无需进行大量的再训练。

(3)检索增强生成
检索增强生成 (RAG)遵循检索后读取管道,其中相关知识首先由检索器从外部来源检索,然后由生成器生成,条件为用户查询和检索到的文档。通过将外部知识与 LLM 解耦,RAG 可以有效缓解知识差距带来的幻觉,而不会影响 LLM 的性能。常见的做法可以分为三个部分,一次性检索 、 迭代检索和事后检索 ,具体取决于检索的时间。

llmhallucinate07

(a)一次性检索
旨在将从单次检索中获得的外部知识直接添加到 LLM 的提示中。Ram 等 人引入了上下文 RALM,它需要一种简单而有效的策略,将所选文档添加到LLM的输入文本前面。除了维基百科等传统知识库之外,正在进行的研究工作还探索了替代途径,特别是知识图谱 (KG) 的利用。这些 KG 是提示LLM的关键工具,促进他们与最新知识的交互,并引出强大的推理途径。Varshney 等 人引入了参数知识指导 (PKG) 框架,通过特定领域的知识增强LLM。PKG 采用可训练的背景知识模块,将其与任务知识保持一致并生成相关的上下文信息。

(b)迭代检索
当面临多步推理和长篇问答,传统的一次性检索可能达不到要求。为了满足这些苛刻的信息需求,最近的研究提出了迭代检索,它允许在整个生成过程中不断收集知识。

(c)事后检索
除了传统的检索然后读取范式之外,一系列工作还深入研究了事后检索,通过随后的基于检索的修订来完善 LLM 输出。为了增强LLM的可信度和归因,Gao 等 人采用了研究后修订工作流程,该工作流程首先研究相关证据,然后根据检测到的与证据的差异修改初始生成。

6.2 减轻与训练相关的幻觉

从训练阶段到对齐阶段(SFT 和 RLHF)的各种优化方法,旨在减轻训练过程中的幻觉。
(1)减轻与预训练相关的幻觉
减轻与预训练相关的幻觉的一个重要研究途径集中在模型架构固有的局限性上,尤其是单向表示和注意力故障 。
在 LLM 的预训练阶段,目标的选择在决定模型的性能方面起着关键作用。然而,传统的目标可能会导致模型输出的表示形式分散和不一致。最近的进展试图通过完善预训练策略、确保更丰富的上下文理解和规避偏见来应对这些挑战。
为了解决训练LLM的固有局限性,即文档级别的非结构化事实知识经常由于 GPU 内存限制和计算效率而被分块,导致信息碎片化和不正确的实体关联。

(2)减轻错位幻觉
对齐过程中引起的幻觉通常源于能力错位和信念错位。然而,定义LLM的知识边界具有挑战性,这使得弥合LLM的固有能力与人类注释数据中呈现的知识之间的差距变得困难。虽然有限的研究解决了能力错位,但重点主要转向信念错位。
由信念错位引起的幻觉通常表现为阿谀奉承,即LLM以不良方式寻求人类认可的倾向。这种阿谀奉承的行为可归因于这样一个事实,即人类的偏好判断往往倾向于阿谀奉承的反应而不是更真实的反应,为奖励黑客攻击铺平了道路。
第一种方式对LLM内部激活的修改也显示出改变模型行为的潜力。这可以通过微调或推理过程中的激活转向。
另一种方式通过激活转向来减轻阿谀奉承。这种方法涉及使用成对的阿谀奉承/非阿谀自承的提示来生成阿谀奉承的转向向量,该向量来自平均中间激活的差异。在推理过程中,减去此向量可以产生较少的阿谀奉承的 LLM 输出。

6.3 减轻与推理相关的幻觉

LLM的解码策略在确定生成内容的真实性和真实性方面发挥着关键作用。探讨了两种高级策略,旨在完善解码策略,以提高LLM输出的真实性和忠实度。

(1)事实性增强解码
事实性增强解码旨在通过优先考虑LLM生成的信息的真实性来提高LLM输出的可靠性。这一系列方法的重点是使模型输出与既定的现实世界事实紧密结合,从而最大限度地降低传播虚假或误导性信息的风险。
(a)事实解码
考虑到抽样过程中的随机性可以将非事实内容引入开放式文本生成中,Lee 等 人引入了事实核抽样算法,该算法在整个句子生成过程中动态调整核心概率 p 。通过根据衰减因子和下限动态调整核概率,并在每个新句子的开头重置核概率,解码策略在生成事实内容和保留输出多样性之间取得了平衡。
(b)后期编辑解码
与直接修改概率分布以防止初始解码过程中出现幻觉的方法不同,后期编辑解码旨在利用LLM的自我校正能力来完善最初生成的内容,而无需依赖外部知识库。Dhuliawala 等 人引入了验证链 (COVE),其运行假设是,在适当的提示下,LLM可以自我纠正错误并提供更准确的事实。

(2)忠实增强解码
忠实增强解码优先考虑与所提供上下文的一致性,并强调增强生成内容的一致性。因此,在本节中,我们将现有工作总结为两类,包括上下文一致性和逻辑一致性 。
(a)上下文一致性
在LLM时代,忠实幻觉的问题通常在于对给定上下文的关注不足,这激发了许多研究来设计推理时间策略以增强上下文一致性。 Shi 等人提出了上下文感知解码 (CAD),它以对比公式修改模型的原始输出分布。通过放大有上下文和无上下文的输出概率之间的差异,CAD 鼓励LLM更多地关注上下文信息,而不是过度依赖先验知识。
(b)逻辑一致性
受人类思维过程的启发,引入了思维链,以鼓励LLM将复杂的问题分解为明确的中间步骤,从而增强推理过程的可靠性。尽管最近的研究很有效证明,LLM生成的中间基本原理并不能忠实地捕捉其潜在行为。

忠实度增强解码显着推进了 LLM 输出与所提供上下文的一致性,并增强了生成内容的内部一致性。 然而,上下文感知解码等策略通常缺乏自适应机制,限制了它们在需要动态关注上下文的场景中的有效性。此外,许多解码策略需要集成不关注上下文的附加模型,从而引入大量计算开销并降低效率。

7. 检索增强生成RAG中的幻觉

RAG 为LLM提供了最新的知识,从而降低了由于LLM固有的知识边界而产生的潜在幻觉风险。尽管旨在减轻LLM幻觉,但检索增强的LLM仍然会产生幻觉。
RAG 中的幻觉呈现出相当大的复杂性,表现为输出事实不准确或具有误导性。当LLM生成的内容与现实世界的事实不符、无法准确反映用户的查询或检索到的信息不支持时,就会出现这些幻觉。这种幻觉可能源于两个主要因素: 检索失败和生成瓶颈

7.1 检索失败

检索过程是 RAG 框架中至关重要的初始步骤,其任务是检索与信息搜索查询最相关的信息。因此,检索阶段的失败会对 RAG 管道产生严重的下游影响,导致幻觉。这些故障通常源于三个主要部分:用户查询的表述、检索源的可靠性和范围以及检索器的有效性。
(1)用户查询
用户查询在指导 RAG 系统的检索过程方面发挥着基础作用。这些查询的特异性和清晰度对检索结果的有效性产生了关键影响。在本节中,我们从三个角度讨论可能导致幻觉的因素:盲目检索、对歧义查询的误解以及准确检索复杂查询的挑战。
(a)检索意图决策
并非所有查询都需要检索。 对不需要外部知识的查询进行盲检索可能会适得其反,从而导致误导性响应。关于 “海平面水沸点” 的查询涉及一个基本的科学事实,该模型可以在没有外部检索的情况下解决该事实。
然而,检索系统被不当激活,盲目地检索不准确的信息,从而导致不良反应。因此,几项研究提出了从被动检索转向自适应检索的转变。一般来说,这些策略可以分为两类: 基于启发式的判断和自我意识的判断 。

  • 基于启发式的方法采用启发式规则来确定检索的必要性。
  • 自我意识判断利用模型的内在判断来决定信息检索的必要性。

(b)模棱两可的查询
包含遗漏、共引用和歧义的模棱两可的用户查询使检索系统获取精确相关信息的能力变得非常复杂,从而增加了生成不良响应的可能性。由于查询“赛道上最快英里跑记录” 的模糊性,检索系统错误地检索了赛车赛事中的信息,导致模型生成了适合车辆而不是运动员的响应。 一种流行的缓解策略是查询重写,其中查询被细化和去上下文化,以更好地匹配相关文档。

(c)复杂查询
复杂的用户查询,其特征是需要密集推理或包含多个方面,对检索系统提出了重大挑战。此类查询需要高级理解和分解能力,这可能会超出当前基于关键字或语义匹配的检索方法的当前能力,通常会导致部分或不正确的检索。

(2)检索源
检索源的可靠性和范围是 RAG 系统有效性的关键决定因素。有效的检索不仅取决于用户查询的清晰度,还取决于检索信息来源的质量和全面性。当这些来源包含事实不正确或过时的信息时,检索失败的风险会显着增加,从而可能导致生成不正确或误导性的信息。

(3)检索
当用户查询明确且检索源可靠时,检索过程的有效性至关重要地取决于检索器的性能。在这种情况下,不正确的分块和嵌入做法会严重损害检索器的有效性。
(a)分块
鉴于检索源的广泛性,通常包含网页等冗长文档,这给上下文长度有限的LLM带来了重大挑战。 因此,分块成为 RAG 中不可或缺的步骤,其中涉及将这些大量文档分割成更小、更易于管理的块,以便为LLM提供精确且相关的证据。
(b)嵌入
检索文本被分块后,文本块随后通过嵌入模型转换为向量表示。 这种表示方案得到了众所周知的向量数据库数据结构的支持,该数据库系统地将数据组织为键值对,以实现高效的文本检索。

7.2 生成瓶颈

检索过程结束后,生成阶段成为一个关键点,负责生成忠实反映检索到的信息的内容。然而,这个阶段可能会遇到可能导致幻觉的重大瓶颈。我们总结了与这些瓶颈密切相关的 LLM 的两个关键能力:上下文感知和上下文对齐。每一种在确保 RAG 系统的可靠性和可信度方面都发挥着重要作用。
(1)上下文感知
上下文感知涉及理解和有效利用检索到的上下文信息。影响因素可分为三个主要部分:(a)上下文中存在嘈杂检索,(b)上下文冲突,以及(c)上下文信息利用不足。
(a)嘈杂的上下文 
检索过程中的失败可能不可避免地引入不相关的信息,这些信息将传播到生成阶段。当生成器对这些不相关的检索不够稳健时,它会误导生成器,甚至引入幻觉。
(b)上下文冲突
检索增强的LLM通过参数知识和上下文知识的综合作用生成答案。LLM 有时可能会表现出过度自信,这可能会在面对知识冲突时给 RAG 系统的忠实性带来新的挑战。 RAG 中的知识冲突是指上下文知识与LLM的参数知识相矛盾的情况。
(c)上下文利用率
尽管成功检索了与事实查询相关的证据,但由于上下文利用不足,LLM可能会遇到显着的性能下降,特别是对于位于长上下文窗口中间的信息,这是一个被称为中间迷失现象的显着问题

(2)上下文对齐
上下文对齐的主要组成部分,其中包括:(a) 来源归属和 (b) 忠实解码
(a)来源归属
检索增强LLM中的来源归因是指模型在其生成过程中识别和利用信息来源的过程。这一组成部分对于确保 RAG 系统的输出不仅相关,而且可验证并以可靠来源为基础至关重要。
了在 RAG 系统中实现来源归因,人们探索了最近的研究,这些研究可以根据归因类型分为三行。(1) 计划然后生成 :Fierro 等人引入了归因蓝图模型,该模型将文本计划概念化为一系列问题,作为生成过程的蓝图,规定了输出的内容和顺序。
(2) 生成然后反思 :Asai 等人提议训练 LLM 生成带有反射标记的文本。这些反射令牌使 LLM 能够决定是否检索、评估检索到的文档的相关性并批评其自己的生成以确保可归因性。
(3) 自我归因 :除了利用外部监督信号进行归因外,Qi 等 人提出了一种利用模型内部信号的自我归因机制。它的工作原理是首先识别上下文相关的应答令牌,然后将其与检索到的文档配对,这些文档通过显着性方法有助于模型生成。

(b)忠实的解码
尽管 RAG 管道进行了重大优化,有助于将高度相关的内容合并到模型的上下文中,但当前的 LLM 仍然无法保证忠实生成。LLM对相关上下文的不忠实利用会破坏其输出的可靠性,即使信息来源是可验证的准确的。

8. 总结

文章研究了大型语言模型中的幻觉,深入研究了其复杂性的根本原因、开创性的检测方法以及相关基准以及有效的缓解策略。可以说是理解LLM的一个很好的文章。

9. 个人感想

大模型幻觉的综述,给出了LLM领域需要解决的问题。帮助你快速了解LLM研究领域。

posted @ 2025-09-21 23:57  zhang-yd  阅读(22)  评论(0)    收藏  举报