《Agentic Retrieval-Augmented Generation_ A Survey on Agentic RAG》论文阅读

论文标题：Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG

文章导图：

1 Introduction

LLMs 由于依赖静态的预训练数据而面临重大限制。这种依赖通常导致信息过时、虚构的回答，以及无法适应动态的现实场景。这些挑战强调了需要能够整合实时数据并动态调整回答以保持上下文相关性和准确性的系统。

检索增强生成（RAG）作为应对这些挑战的一种有希望的解决方案出现。通过将 LLMs 的生成能力与外部检索机制相结合，RAG 系统提高了回答的相关性和及时性。这些系统从知识库、API或网络等来源实时检索信息，有效地弥合了静态训练数据与动态应用需求之间的差距。然而，传统的 RAG 工作流程仍受限于线性和静态的设计，限制了它们进行复杂的多步推理、整合深层次的上下文理解和迭代改进回答的能力。

Agents的演变显著提升了人工智能系统的功能。Modern agents，包括由大型语言模型（LLM）驱动的和移动代理，是能够感知、推理并自主执行任务的智能实体。这些agent利用agentic patterns，例如反思、规划、工具使用以及多代理协作，来增强决策能力和适应性。

此外，这些agents采用agentic workflow模式，例如提示链（prompt chaining）、路由（routing）、并行化（parallelization）、编排器-工作者模型（orchestrator-worker models）以及评估器-优化器（evaluator-optimizer），来构建和优化任务执行。通过整合这些模式，Agentic RAG系统能够高效地管理动态工作流并解决复杂的问题场景。RAG与agentic intelligence的融合催生了Agentic RAG，这是一种将agent整合到RAG流程中的范式。

Agentic RAG 实现了动态检索策略、上下文理解和迭代改进，实现了自适应和高效的信息处理。与传统的 RAG 不同，Agentic RAG 利用自主代理来编排检索、筛选相关信息和改进回答，在需要精确性和适应性的场景中表现出色。Agentic RAG 的概述如下图所示。

本综述探讨了Agentic RAG的基础原理、分类和应用。它提供了检索增强生成（RAG）范式的全面概述，包括 Naïve RAG、Modular RAG和graph RAG，以及它们向agentic RAG系统的演变。主要贡献包括对agentic RAG框架的详细分类、在医疗保健[17,18]、金融和教育[19]等领域的应用，以及对实施策略、基准和伦理考量的见解。

本文的结构如下：第2节介绍检索增强生成及其演变，强调传统方法的局限性。第3节详细阐述代理智能和代理模式的原理。第4节详细阐述代理工作流模式。第5节提供代理式RAG系统的分类，包括单代理、多代理和基于图的框架。第6节对代理式RAG框架进行比较分析。第7节考察代理式RAG的应用，第8节讨论实施工具和框架。第9节关注基准和数据集，第10节以代理式RAG系统未来发展方向的总结结束。

2 Foundations of Retrieval-Augmented Generation

2.3 Evolution of RAG Paradigms

本节考察了检索增强生成（RAG）范式的演变过程，介绍了其发展的关键阶段——Naïve RAG, Advanced RAG, Modular RAG, Graph RAG, Agentic RAG，以及它们的定义特征、优势和局限性。通过了解这些范式的演变，读者可以更好地理解检索和生成能力的进步及其在各个领域的应用。

2.3.1 Naïve RAG

下图展示了 Naïve RAG 的简单检索-阅读工作流程，重点是**基于关键词的检索和静态数据集**。这些系统依赖于简单的基于关键词的检索技术，如 TF-IDF 和 BM25，从静态数据集中获取文档。然后，检索到的文档用于增强语言模型的生成能力。

Naïve RAG 的特点是简单易实现，适用于涉及基于事实的查询且上下文复杂性较低的任务。然而，它存在一些限制：

缺乏上下文意识：由于依赖 Lexical matching 而非 semantic understanding，检索到的文档往往无法捕捉查询的语义细微差别
输出碎片化：缺乏高级预处理或上下文整合往往导致回答不连贯或过于通用
可扩展性问题：基于关键词的检索技术在处理大型数据集时存在困难，往往无法识别最相关的信息

2.3.2 Advanced RAG

Advanced RAG 系统在 Naïve RAG 的限制基础上进行了改进，通过融入语义理解和增强的检索技术。下图突出了检索中的语义增强以及 Advanced RAG 的迭代、上下文感知的流程。这些系统利用**密集检索模型（如 Dense Passage Retrieval，DPR）**和**神经排序算法**来提高检索精度。

Advanced RAG 的核心特性包括：

密集向量搜索：查询和文档以高维向量空间表示，从而实现用户查询和检索到的文档之间更好的语义对齐
上下文重新排序：神经模型重新对检索到的文档进行排序，以优先考虑最相关的上下文信息
迭代检索：Advanced RAG 引入了多跳检索机制，使得在复杂查询中可以跨多个文档进行推理

这些进展使得 Advanced RAG 适用于需要高精度和细致理解的应用，例如研究综述和个性化推荐。然而，仍然存在一些挑战，比如计算开销和有限的可扩展性，特别是在处理大型数据集或多步查询时。

2.3.3 Modular RAG

Modular RAG是 RAG 范式的最新演进，强调**灵活性**和**定制性**。这些系统将检索和生成流程分解为独立、可重用的组件，从而实现领域特定的优化和任务适应性。下图展示了 Modular RAG 的架构，展示了混合检索策略、可组合的流程和外部工具集成。

Modular RAG 的关键创新包括：

混合检索策略：将稀疏检索方法（例如 sparse encoder-BM25）与密集检索技术（参考阅读 7，例如 DPR - Dense Passage Retrieval）相结合，以在不同类型的查询中最大化准确性
工具集成：将外部 API、数据库或计算工具纳入系统，用于处理特定任务，如实时数据分析或领域特定计算
可组合的流程：模块化 RAG 使得检索器、生成器和其他组件可以独立替换、增强或重新配置，从而实现对特定用例的高度适应性

例如，一个专为金融分析设计的 Modular RAG 系统可以通过 API 获取实时股票价格，利用密集检索分析历史趋势，并通过定制的语言模型生成可操作的投资见解。这种模块化和定制性使得 Modular RAG 非常适合处理复杂的、多领域的任务，既具有可扩展性又具有精确性。

2.3.4 Graph RAG

Graph RAG 通过集成基于图的数据结构扩展了传统的检索增强生成系统，如下图所示.这些系统利用**图数据**中的关系和**层次结构**来增强多跳推理和上下文丰富化。通过整合基于图的检索，Graph RAG 能够产生更丰富、更准确的生成输出，特别适用于需要关系理解的任务。

Graph RAG 的特点包括：

节点连接性：捕捉并推理实体之间的关系
分层知识管理：通过基于图的层次结构处理结构化和非结构化数据
上下文丰富：通过利用基于图的路径增加关系理解

然而，Graph RAG也有一些限制：

有限的可扩展性：依赖于图结构可能会限制可扩展性，特别是在处理大量数据源时
数据依赖性：高质量的图数据对于有意义的输出至关重要，这限制了它在非结构化或标注不完善的数据集中的适用性
集成复杂性：将图数据与非结构化检索系统集成增加了设计和实现的复杂性

Graph RAG 非常适用于医疗诊断、法律研究和其他需要对结构化关系进行推理的领域

2.3.5 Agentic RAG

Agentic RAG 引入了具有**动态决策能力和工作流优化能力**的自主代理，**代表了一种范式转变**。与静态系统不同，Agentic RAG 采用**迭代改进**和**自适应检索策略**来处理复杂的、实时的、多领域的查询。这种范式利用了检索和生成过程的模块化，同时引入了基于代理的自治性。

Agentic RAG 的关键特性包括：

自主决策：代理根据查询的复杂性独立评估和管理检索策略
迭代改进：引入反馈循环以提高检索准确性和响应相关性
工作流优化：动态编排任务，实现实时应用的高效性

尽管 Agentic RAG 取得了进展，但也面临一些挑战：

协调复杂性：管理代理之间的交互需要复杂的编排机制
计算开销：使用多个代理增加了复杂工作流的资源需求
可扩展性限制：虽然具有可扩展性，但系统的动态性可能会对高查询量的计算资源造成压力

Agentic RAG 在客户支持、金融分析和自适应学习平台等领域表现出色，其中动态适应性和上下文精确性至关重要。

2.4 Challenges and Limitations of Traditional RAG Systems

最显著的局限性主要集中在**上下文整合**、**多步推理**以及**可扩展性**和**延迟**问题上。

2.4.1 Contextual Integration

即使 RAG 系统成功检索到相关信息，它们通常难以将其无缝地融入生成的响应中。检索流程的静态性和有限的上下文意识导致输出结果零散、不一致或过于通用

例如：对于一个查询，比如“阿尔茨海默病研究的最新进展及其对早期治疗的影响是什么？”，可能会得到相关的研究论文和医疗指南。然而，传统的 RAG 系统往往无法将这些发现综合成一个连贯的解释，将新的治疗方法与具体的患者情况联系起来。同样，对于一个类似“干旱地区小规模农业的最佳可持续实践是什么？”的查询，传统系统可能会检索到关于一般农业方法的文件，但忽视了针对干旱环境量身定制的关键可持续实践。

2.4.2 Multi-Step Reasoning

许多实际查询需要迭代或multi-hop推理，即在多个步骤中检索和综合信息。传统的 RAG 系统往往无法根据中间洞察或用户反馈来优化检索，导致响应不完整或不连贯。

例如：一个复杂的查询，比如“欧洲可再生能源政策中的经验教训如何适用于发展中国家，可能产生哪些经济影响？”需要协调多种类型的信息，包括政策数据、发展地区的情境化信息和经济分析。传统的 RAG 系统通常无法将这些不同的要素连接成一个连贯的响应。

2.4.3 Scalability and Latency Issues

随着外部数据源的增加，查询和对大型数据集进行排序变得越来越需要大量的计算资源。这导致显著的延迟，削弱了系统在实时应用中提供及时响应的能力。

例如：在对时间敏感的场景中，如金融分析或实时客户支持中，由于查询多个数据库或处理大量文档集而导致的延迟可能会阻碍系统的整体效用。在高频交易中延迟检索市场趋势可能会导致错失机会。

2.5 Agentic RAG: A paradigm Shift

传统的 RAG 系统由于其静态工作流程和有限的适应性，往往难以处理动态的、多步推理和复杂的实际任务。这些局限性促使了智能代理的整合，从而产生了 Agentic RAG。Agentic RAG 整合了能够进行**动态决策、迭代推理和自适应检索策略**的自主代理，且通过优化的工作流程减少了延迟，并通过迭代地改进输出来解决了传统 RAG 系统在可扩展性和有效性方面的历史性挑战。

3 Core Principles and Background of Agentic Intelligence

Agent是 Agentic RAG 系统的基础。从本质上讲，一个 AI agent包括以下组成部分：

LLM（具有定义的角色和任务）：作为代理的主要推理引擎和对话接口，负责解释用户查询，生成响应，并保持连贯性
记忆（短期和长期）：在交互过程中捕捉上下文和相关数据。短期记忆跟踪即时对话状态，而长期记忆存储积累的知识和代理经验
规划（反思和自我批评）：通过反思、查询路由或自我批评（参考阅读 10）指导代理的迭代推理过程，确保有效地拆分复杂任务
工具（向量搜索、网络搜索、API 等）：扩展代理的能力，使其不仅限于文本生成，还能够访问外部资源、实时数据或专门的计算

Agentic Patterns 提供了结构化方法以指导 Agentic RAG 系统中代理的行为。这些模式使代理能够动态适应、规划和协作，确保系统能够以精确性和可扩展性处理复杂的实际任务。有四个关键模式支撑着 agentic 工作流程：反思（reflection）、规划（planning）、工具使用（tool use）和多代理协作（multi-agent collaboration）。

3.1 Reflection

**reflection 是 agentic Workflows其中一个基础设计模式，使代理能够迭代地评估和改进其输出。**通过引入self-feedback机制，代理可以识别和解决错误、不一致性和改进空间，提高在代码生成、文本生成和问题回答等任务中的性能。在实际应用中，反思涉及促使代理对其输出进行正确性、风格和效率的批判，并将这些反馈纳入后续的迭代中。外部工具如单元测试或网络搜索，可以进一步增强这个过程，验证结果并突出差距。

在多代理系统中，反思可以涉及不同的角色，例如一个代理生成输出，而另一个代理对其进行批判，促进协作改进。例如，在法律研究中，代理可以通过重新评估检索到的案例法来迭代地改进回答，确保准确性和全面性。反思在 Self-Refine、Reflexion 和 CRITIC 等研究中已经展示了显著的性能改进。

3.2 Planning

**规划是 agentic 工作流程中的一个关键设计模式，使代理能够自主地将复杂任务分解为更小、可管理的子任务。**这种能力对于在动态和不确定的情境中进行多跳推理和迭代问题解决至关重要。

通过利用规划，代理可以动态确定完成更大目标所需的步骤顺序。这种适应性使代理能够处理无法预定义的任务，确保决策的灵活性。虽然强大，但与反思等确定性工作流程相比，规划可能产生较不可预测的结果。

3.3 Tool Use

工具使用使代理能够通过与外部工具、API 或计算资源的交互来扩展其能力。这种模式使代理能够获取信息、进行计算和操作超出其预训练知识范围的数据。通过将工具动态集成到工作流程中，代理可以适应复杂任务并提供更准确和与上下文相关的输出。

现代 agentic workflow在各种应用中都采用了工具使用，包括信息检索、计算推理和与外部系统的接口。这种模式的实现已经随着 GPT-4 的函数调用能力和能够管理多个工具访问的系统等进展而发展得非常显著。这些发展促进了复杂工作流程的实现，其中代理自主选择并执行与给定任务最相关的工具。

尽管工具使用显著增强了 agentic workflow，但在优化工具选择方面仍存在挑战，特别是在可用选项众多的情况下。

3.4 Multi-Agent

**多代理协作是 agentic workflow中的一个关键设计模式，它实现了任务专业化和并行处理。**代理之间进行通信和共享中间结果，确保整体工作流程高效和连贯。通过将子任务分配给专门的代理，这种模式提高了复杂工作流程的可扩展性和适应性。多代理系统允许开发人员将复杂的任务分解为较小、可管理的子任务，并分配给不同的代理。这种方法不仅提高了任务性能，还为管理复杂交互提供了一个强大的框架。每个代理都有自己的记忆和工作流程，可以包括使用工具、反思或规划，实现动态和协作的问题解决。

尽管多代理协作提供了巨大的潜力，但与反思和工具使用等更成熟的工作流程相比，它是一个较不可预测的设计模式。然而，新兴的框架如 AutoGen、Crew AI 和 LangGraph 为实现有效的多代理解决方案提供了新的途径。

这些设计模式构成了 Agentic RAG 系统成功的基础。通过构建工作流程，从简单的顺序步骤到更具适应性和协作性的过程，这些模式使系统能够动态调整其检索和生成策略，以适应多样化和不断变化的现实环境的需求。利用这些模式，代理能够处理迭代的、上下文感知的任务，远远超出传统 RAG 系统的能力。

4 Agentic Workflow Patterns: Adaptive Strategies for Dynamic Collaboration

Agentic 工作流模式对基于 LLM 的应用进行**结构化**，以优化性能、准确性和效率。根据任务的复杂性和处理要求可以采用不同的方法。

4.1 Prompt Chaining: Enhancing Accuracy Through Sequential Processing

**提示链将复杂任务分解为多个步骤，每个步骤都建立在前一个步骤的基础上。**这种结构化方法通过在继续前进之前简化每个子任务来提高准确性。然而，由于顺序处理，它可能会增加延迟。

When to use：当一个任务可以被分解为固定的子任务，且每个子任务都对最终输出有所贡献时，这种工作流最为有效。它特别适用于逐步推理能够提高准确性的场景。

Example Application：

• 在一种语言中生成营销内容，然后将其翻译成另一种语言，同时保留细微差别。

• 通过首先生成大纲、验证其完整性，然后开发全文来构建文档创作。

4.2 Routing:Directing Inputs to Specialized Processes

**路由涉及对输入进行分类，并将其引导到适当的专门提示或处理过程。**这种方法确保不同的查询或任务被单独处理，提高了效率和响应质量。

When to use：适用于不同类型的输入需要不同的处理策略的场景，以确保每个类别的优化性能。

Example Application：

• 将客户服务查询分类为技术支持、退款请求或一般咨询。

• 将简单查询分配给较小的模型以提高成本效益，而复杂请求则分配给高级模型。

4.3 Parallelization: Speeding Up Processing Through Concurrent Execution

**并行化将一个任务分解为同时运行的独立的进程，从而减少延迟并提高吞吐量。**它可以分为分段（独立子任务）和投票（多个输出以提高准确性）两种类型。

When to use：当任务可以独立执行以提高速度，或者多个输出可以增强信心时，这种方法很有用。

Example Applications：

• 分段处理：将任务拆分，例如内容审核，其中一个模型负责筛选输入内容，而另一个模型生成响应。

• 投票机制：使用多个模型交叉检查代码中的漏洞，或者分析内容审核的决策。

4.4 Orchestrator-Workers: Dynamic Task Delegation

利用中央协调模型动态地将任务分解为子任务，分配给专门的工作模型，并编译结果。与并行化不同，它能够适应不同的输入复杂性。

When to use：最适合需要动态分解和实时适应的任务，其中子任务不是预先定义的。

Example Applications：

• 根据请求更改的性质，在代码库中自动修改多个文件。

• 通过从多个来源收集和综合相关信息，进行实时研究。

4.5 Evaluator-Optimizer: Refining Output Through Iteration

评估器-优化器工作流程通过生成初始输出并根据评估模型的反馈进行改进，迭代地提高内容质量。

when to use：当迭代优化能显著提高回答质量时非常有效，特别是当存在明确的评估标准时。

Example Applications：

• 通过多轮评估和优化循环来提高文学翻译的质量。

• 进行多轮研究查询，其中额外的迭代可以优化搜索结果。

5 Taxonomy of Agentic RAG Systems

Agentic RAG 系统可以根据其复杂性和设计原则划分为不同的架构框架。这些框架包括**单代理架构、多代理系统和分层代理架构**。每个框架都经过量身定制，以解决特定的挑战，并优化各种应用的性能。本节提供了这些架构的详细分类，突出它们的特点、优势和局限性。

5.1 Single-Agent Agentic RAG: Router

单代理 Agentic RAG 作为一个集中的决策系统，其中一个单一代理负责管理信息的检索、路由和整合。这种架构通过将这些任务整合到一个统一的代理中简化了系统，特别适用于具有有限工具或数据源的设置。

Workflow:

1.查询提交与评估：当用户提交查询时，整个流程开始。一个协调代理（或主检索代理）接收查询并对其进行分析，以确定最合适的资料来源。

2.知识源选择：根据查询的类型，协调代理从多种检索选项中进行选择：

• 结构化数据库：对于需要访问表格数据的查询，系统可能会使用一个文本到SQL引擎，与PostgreSQL或MySQL等数据库进行交互。

• 语义搜索：在处理非结构化信息时，它使用基于向量的检索来检索相关的文档（例如，PDF文件、书籍、组织记录）。

• 网络搜索：对于实时或广泛背景信息的查询，系统利用网络搜索工具来获取最新的在线数据。

• 推荐系统：对于个性化或上下文相关的查询，系统会利用推荐引擎提供量身定制的建议。

3.数据整合与LLM综合：从选定的来源检索到相关数据后，数据被传递给一个大型语言模型（LLM）。LLM综合收集到的信息，将来自多个来源的见解整合成一个连贯且与上下文相关的回答。

4.输出生成：最后，系统提供一个全面的、面向用户的答案，以解决原始查询。这个回答以可操作、简洁的格式呈现，并且可能会选择性地包括对所使用来源的引用或参考文献。

关键特点和优势:

• 集中式简洁性：单一代理处理所有检索和路由任务，使架构设计、实施和维护变得简单明了。

• 效率与资源优化：由于代理数量较少且协调更简单，系统对计算资源的需求更少，能够更快地处理查询。

• 动态路由：代理实时评估每个查询，选择最合适的知识源（例如，结构化数据库、语义搜索、网络搜索）。

• 工具的多样性：支持多种数据源和外部API，能够实现结构化和非结构化工作流。

• 适用于简单系统：适用于任务明确或集成需求有限的应用（例如，文档检索、基于SQL的工作流）。

5.2 Multi-Agent Agentic RAG Systems:

多代理 Agentic RAG 是单代理架构的模块化和可扩展演进，旨在通过利用多个专门的代理来处理复杂的工作流程和多样化的查询类型（如下图所示）。该系统不再依赖于单个代理来管理所有任务（推理、检索和响应生成），而是将责任分配给多个代理，每个代理针对特定的角色或数据源进行了优化。

工作流程：

查询提交：用户查询，由协调代理或主检索代理接收。该代理充当中央协调器，根据查询的要求将查询委派给专门的检索代理
专门的检索代理：查询被分发给多个检索代理，每个代理专注于特定类型的数据源或任务。例如：
- 代理1：处理结构化查询，如与基于 SQL 的数据库（如 PostgreSQL 或 MySQL）进行交互
- 代理2：管理语义搜索，从 PDF、书籍或内部记录等来源检索非结构化数据
- 代理3：专注于从网络搜索或 API 中检索实时公共信息
- 代理4：专门处理推荐系统，根据用户行为或个人资料提供上下文感知的建议
工具访问和数据检索：每个代理将查询路由到其领域内适当的工具或数据源，例如：
- 向量搜索：用于语义相关性
- Text-to-SQL：用于结构化数据
- 网络搜索：用于实时公共信息
- API：用于访问外部服务或专有系统

检索过程并行执行，可以高效处理多样化的查询类型。

数据整合和 LLM 综合：LLM 将检索到的信息综合成一份连贯且与上下文相关的响应，无缝地整合多个来源的见解
输出生成：系统生成一份全面的响应，并以可操作且简洁的格式返回给用户

关键特点和优势:

• 模块化：每个代理独立运行，可以根据系统需求无缝地添加或移除代理。

• 可扩展性：多个代理的并行处理使系统能够高效地处理高查询量。

• 任务专业化：每个代理针对特定类型的查询或数据源进行优化，提高了准确性和检索的相关性。

• 效率：通过将任务分配给专业化的代理，系统减少了瓶颈，提升了复杂工作流的性能。

• 多功能性：适用于涵盖多个领域的应用，包括研究、分析、决策制定和客户支持。

5.3 Hierarchical Agentic RAG Systems

多层次 Agentic RAG 系统（参考资料 15）采用了结构化的、多层次的方法进行信息检索和处理，如下图所示，从而提高了效率和战略决策能力。该系统中的代理人按照层次结构进行组织，高层代理人负责监督和指导低层代理人。这种结构实现了多层次的决策，确保查询由最合适的资源处理。

工作流程：

查询接收：用户提交查询，由顶层 agent 接收，其负责初始评估和委派
战略决策：顶层代理人评估查询的复杂性，根据查询的领域，决定优先考虑哪些下级 agent 或数据源
委派给下级 agent：顶层 agent 将任务分配给专门从事特定检索方法的低层 agent（例如 SQL 数据库、网络搜索或专有系统）。这些 agent 独立执行其分配的任务
聚合和整合：下级 agent 的结果由更高层的 agent 收集和整合，将信息综合成一份连贯的回复
回复发送：最终综合的答案返回给用户，确保回复既全面又与上下文相关。

关键特点和优势

• 战略优先级：顶级代理可以根据查询的复杂性、可靠性或上下文，优先选择数据源或任务。

• 可扩展性：将任务分配到多个代理层级，能够处理高度复杂或多方面的查询。

• 增强的决策能力：更高级别的代理提供战略监督，以提高回答的整体准确性和连贯性。

挑战

• 协调复杂性：在多个层级之间保持强大的代理间通信会增加协调开销。

• 资源分配：在层级之间高效分配任务以避免瓶颈并非易事。

5.4 Agentic Corrective RAG

Corrective RAG 引入了自我纠正检索结果的机制，通过在工作流中嵌入智能 agent，迭代地改进上下文文档和响应，最小化错误并最大化相关性。Corrective RAG 的核心原则在于其能够动态评估检索到的文档，执行纠正操作，并优化查询以提高生成响应的质量。Corrective RAG 采用的方法如下：

文档相关性评估：由相关性评估 agent 对检索到的文档进行评估。低于相关性阈值的文档会触发纠正步骤
查询优化和扩充：由查询优化 agent 对查询进行优化，利用语义理解来优化检索以获得更好的结果
动态从外部来源检索：当上下文不足时，外部知识检索 agent 执行网络搜索或访问其他数据源以补充检索到的文档
响应综合：所有经过验证和改进的信息传递给响应综合 agent 进行最终的响应生成

工作流程：

校正式检索增强生成（Corrective RAG）系统基于五个关键代理构建：

• 上下文检索代理：负责从向量数据库中检索初始上下文文档。

• 相关性评估代理：评估检索到的文档的相关性，并标记任何不相关或模糊的文档以便进行校正操作。

• 查询优化代理：利用语义理解重写查询，以提高检索效果，优化结果。

• 外部知识检索代理：当上下文文档不足时，进行网络搜索或访问其他数据源。

• 回答综合代理：将所有经过验证的信息综合成一个连贯且准确的回答。

关键特点和优势：

• 迭代校正：通过动态识别和校正不相关或模糊的检索结果，确保高回答准确率。

• 动态适应性：结合实时网络搜索和查询优化，增强检索精度。

• 代理模块化：每个代理执行专门的任务，确保操作高效且可扩展。

• 事实性保障：通过验证所有检索和生成的内容，校正式检索增强生成系统最小化了幻觉或错误信息的风险。

5.5 Adaptive Agentic RAG

Adaptive RAG通过根据传入查询的复杂性动态调整查询处理策略，提高了 LLM 的灵活性和效率。与静态检索工作流不同，Adaptive RAG使用分类器评估查询的复杂性，并确定最合适的方法，从单步检索到多步推理，甚至对于简单的查询完全绕过检索。

Adaptive RAG 的核心思想在于根据查询的复杂性动态调整检索策略：

简单查询：对于不需要额外检索的基于事实的问题，系统直接使用现有知识生成答案
中等复杂查询：对于需要较少上下文的中等复杂任务，系统执行单步检索以获取相关细节
复杂查询：对于需要多层次推理的复杂查询，系统采用多步检索，逐步优化中间结果以提供全面的答案

Adaptive RAG 系统建立在三个主要组件上：

分类器角色：
- 使用较小的语言模型分析查询以预测其复杂性
- 分类器使用自动标注的数据集进行训练，这些数据集是根据过去模型结果和查询模式生成的
动态策略选择：
- 对于简单的查询，系统避免不必要的检索，直接利用语言模型生成响应
- 对于中等复杂的查询，系统采用单步检索过程来获取相关上下文
- 对于复杂的查询，系统激活多步检索，确保迭代优化和增强推理能力
LLM 集成：
- LLM 将检索到的信息综合成一份连贯的响应
- LLM 和分类器之间的迭代交互使得对于复杂查询的优化得以实现

工作流程：自适应检索增强生成（Adaptive RAG）系统基于三个主要组件构建：

1, 分类器角色：

• 一个较小的语言模型分析查询以预测其复杂性。

• 分类器使用自动标注的数据集进行训练，这些数据集来源于过去的模型结果和查询模式。

2, 动态策略选择：

• 对于简单的查询，系统避免不必要的检索，直接利用大型语言模型（LLM）生成回答。

• 对于简单查询，它采用单步检索过程来获取相关上下文。

• 对于复杂查询，它激活多步检索以确保迭代优化和增强推理。

3, LLM整合：

• LLM将检索到的信息综合成一个连贯的回答。

• LLM与分类器之间的迭代互动使复杂查询能够得到优化。

关键特点和优势：

• 动态适应性：根据查询的复杂性调整检索策略，优化计算效率和回答准确性。

• 资源效率：对于简单查询，最小化不必要的开销，同时确保复杂查询得到彻底处理。

• 增强的准确性：迭代优化确保复杂查询能够以高精度解决。

• 灵活性：可以扩展以纳入额外的途径，例如特定领域的工具或外部API。

5.6 Graph-Based Agentic RAG

5.6.1 Agent-G: Agentic Framework for Graph RAG

Agent-G 引入了一种新颖的代理架构，将图知识库与非结构化文档检索相结合。通过结合结构化和非结构化数据源，该框架提高了 RAG 系统的推理和检索准确性。它采用模块化的检索器库、动态代理交互和反馈循环，以确保高质量的输出。

Agent-G的核心理念：Agent-G的核心原则在于其能够动态地将检索任务分配给专业代理，同时利用图知识库和文本文件。Agent-G调整其检索策略如下：

• 图知识库：结构化数据用于提取关系、层次结构和连接（例如，在医疗保健中疾病与症状的映射）。

• 非结构化文档：传统的文本检索系统提供上下文信息以补充图数据。

• 评估模块：评估检索信息的相关性和质量，确保与查询一致。

• 反馈循环：通过迭代验证和重新查询来优化检索和综合。

工作流程：Agent-G系统基于四个主要组件构建：

• 1, 检索器库：

一组模块化的代理专门用于检索基于图或非结构化的数据。

代理根据查询的要求动态选择相关的数据源。

2, 评估模块：

验证检索数据的相关性和质量。

标记低置信度结果以便重新检索或优化。

3, 动态代理互动：

针对特定任务的代理协作以整合不同数据类型。

确保在图和文本源之间进行连贯的检索和综合。

4, LLM整合：

将验证后的数据综合成一个连贯的回答。

来自评估模块的迭代反馈确保与查询意图一致。

关键特点和优势：

• 增强推理：将图中的结构化关系与非结构化文档中的上下文信息相结合。

• 动态适应性：根据查询要求动态调整检索策略。

• 提高准确性：评估模块降低了回答中出现不相关或低质量数据的风险。

• 可扩展的模块化：支持添加新的代理以执行特定任务，增强可扩展性。

5.6.2 GeAR: Graph-Enhanced Agent for Retrieval-Augmented Generation

GeAR 引入了一个 agent 框架，通过整合基于图的检索机制，增强了传统的 RAG 系统。通过利用图扩展技术和基于 agent 的架构，GeAR 解决了多跳检索场景中的挑战，提高了系统处理复杂查询的能力，如下图所示：

GeAR的核心理念：GeAR通过两项主要创新提升了检索增强生成（RAG）的性能：

• 图扩展：通过将检索过程扩展到包含图结构数据，增强了传统的基础检索器（例如BM25），使系统能够捕捉实体之间的复杂关系和依赖关系。

• 代理框架：采用基于代理的架构，利用图扩展更有效地管理检索任务，允许在检索过程中进行动态和自主的决策。

工作流程：GeAR系统通过以下组件运行：

1, 图扩展模块：

• 将基于图的数据整合到检索过程中，使系统在检索时能够考虑实体之间的关系。

• 通过将搜索空间扩展到包含连接实体，增强了基础检索器处理多跳查询的能力。

2, 基于代理的检索：

• 使用代理框架来管理检索过程，根据查询的复杂性动态选择和组合检索策略。

• 代理可以自主决定利用图扩展的检索路径，以提高检索信息的相关性和准确性。

3, LLM整合：

• 将通过图扩展丰富后的检索信息与大型语言模型（LLM）的能力相结合，生成连贯且与上下文相关的回答。

• 这种整合确保了生成过程既受到非结构化文档的指导，也受到结构化图数据的指导。

5.7 Agentic Document Workflows in Agentic RAG

Agentic Document Workflows（ADW）通过实现端到端的知识工作自动化，扩展了传统的 RAG 范式。这些工作流程协调以文档为中心的复杂过程，集成了文档解析、检索、推理和结构化输出，并与智能代理结合。ADW 系统通过维护状态、协调多步骤工作流程以及对文档应用特定领域的逻辑，**解决了智能文档处理（Intelligent Document Processing，IDP）和 RAG 的局限性**。

工作流程：

文档解析和信息结构化：
- 使用企业级工具（例如 LlamaParse）对文档进行解析，提取相关的数据字段，如发票号码、日期、供应商信息、项目明细和付款条件
- 对结构化数据进行组织，以便进行后续处理
跨过程状态维护：
- 系统维护有关文档上下文的状态，确保在多步骤工作流程中的一致性和相关性
- 跟踪文档在各个处理阶段的进度
知识检索：
- 从外部知识库（例如 LlamaCloud）或向量索引中检索相关的参考信息
- 检索实时的、领域特定的指南，以增强决策能力
代理协调：
- 智能代理应用业务规则，进行多跳推理，并生成可操作的建议
- 协调解析器、检索器和外部 API 等组件，实现无缝集成
可操作输出生成：
- 输出以结构化格式呈现，针对特定的用例进行定制
- 将建议和提取的见解综合成简明扼要的可操作报告

6 Comparative Analysis of Agentic RAG Frameworks

表2提供了三种架构框架的全面比较分析：传统检索增强生成（Traditional RAG）、代理式检索增强生成（Agentic RAG）和代理式文档工作流（Agentic Document Workflows，ADW）。该分析突出了它们各自的优点、缺点以及最适合的场景，为它们在各种不同用例中的适用性提供了宝贵的见解。

比较分析突出了从传统检索增强生成（Traditional RAG）到代理式检索增强生成（Agentic RAG），再到代理式文档工作流（Agentic Document Workflows，ADW）的演变轨迹。虽然传统RAG为基本任务提供了简单性和易于部署的特点，但代理式RAG通过多代理协作引入了增强的推理能力和可扩展性。ADW在这些进步的基础上，提供了强大且以文档为中心的工作流，有助于实现端到端的自动化，并与特定领域的流程进行集成。了解每个框架的优势和局限性对于选择最符合特定应用需求和运营要求的架构至关重要。

7 Applications of Agentic RAG

代理式检索增强生成（Agentic RAG）系统已在多个领域展现出变革性潜力。通过结合实时数据检索、生成能力以及自主决策，这些系统能够应对复杂、动态以及多模态的挑战。本节将探讨代理式RAG的关键应用，深入剖析这些系统是如何塑造客户支持、医疗保健、金融、教育、法律工作流程以及创意产业等行业发展的。

7.1 Customer Support and Virtual Assistants

代理式检索增强生成（Agentic RAG）系统正在通过实现实时、具有上下文感知能力的查询解决，彻底改变客户支持领域。传统的聊天机器人和虚拟助手通常依赖于静态的知识库，这导致它们的回答往往比较笼统或过时。相比之下，代理式RAG系统能够动态检索最相关的信息，适应用户的上下文，并生成个性化的回答。

用例：Twitch广告销售提升

例如，Twitch利用在亚马逊Bedrock上的代理式工作流与RAG相结合，来简化广告销售流程。该系统动态检索广告商数据、历史活动表现和受众人口统计数据，以生成详细的广告提案，显著提高了运营效率。

主要优势：

• 提高回答质量：个性化且具有上下文感知能力的回复能够增强用户参与度。

• 运营效率：通过自动化处理复杂查询，减轻了人工支持代理的工作负担。

• 实时适应性：动态整合不断变化的数据，例如实时服务中断或价格更新。

7.2 Healthcare and Personalized Medicine

在医疗保健领域，将患者特定数据与最新的医学研究相结合对于做出明智的决策至关重要。代理式检索增强生成（Agentic RAG）系统通过检索实时临床指南、医学文献和患者病史，协助临床医生进行诊断和治疗计划的制定，从而实现了这一目标。

用例：患者病例摘要

代理式RAG系统已被应用于生成患者病例摘要。例如，通过整合电子健康记录（EHR）和最新的医学文献，该系统为临床医生生成全面的摘要，以便他们能够更快地做出更明智的决策。

主要优势：

• 个性化护理：根据个体患者的需求量身定制建议。

• 时间效率：简化相关研究的检索过程，为医疗服务提供者节省宝贵的时间。

• 准确性：确保建议基于最新的证据和患者特定的参数。

7.3 Legal and Contract Analysis

代理式RAG系统正在重新定义法律工作流程的开展方式，提供快速文档分析和决策制定的工具。

用例：合同审查

一个法律领域的代理式RAG系统可以分析合同，提取关键条款，并识别潜在风险。通过结合语义搜索能力和法律知识图谱，它自动化了繁琐的合同审查过程，确保合规并降低风险。

主要优势：

• 风险识别：自动标记偏离标准条款的条款。

• 效率：减少合同审查过程所花费的时间。

• 可扩展性：同时处理大量合同。

7.4 Finance and Risk Analysis

代理式RAG系统正在通过为投资决策、市场分析和风险管理提供实时洞察，改变金融行业。这些系统整合实时数据流、历史趋势和预测模型，生成可操作的输出。

用例：汽车保险理赔处理

在汽车保险领域，代理式RAG可以自动化理赔处理。例如，通过检索保单详细信息并将其与事故数据相结合，它在确保符合监管要求的同时生成理赔建议。

主要优势：

• 实时分析：基于实时市场数据提供洞察。

• 风险缓解：使用预测分析和多步推理识别潜在风险。

• 增强决策制定：结合历史和实时数据制定全面的策略。

7.5 Education and Personalized Learning

教育是代理式RAG系统取得显著进展的另一个领域。这些系统通过生成解释、学习材料和反馈，根据学习者的进度和偏好进行调整，从而实现自适应学习。

用例：研究论文生成

在高等教育中，代理式RAG已被用于协助研究人员，通过综合多个来源的关键发现。例如，当研究人员查询“量子计算的最新进展是什么？”时，他们将收到一个附有参考文献的简洁摘要，从而提高他们的工作质量和效率。

主要优势：

• 定制学习路径：根据个别学生的需求和表现水平调整内容。

• 互动互动：提供互动解释和个性化反馈。

• 可扩展性：支持大规模部署，适用于多样化的教育环境。

7.6 Graph-Enhanced Applications in Multimodal Workflows

图增强代理式检索增强生成（GEAR）将图结构与检索机制相结合，在多模态工作流中特别有效，其中互联的数据源至关重要。

用例：市场调查生成

GEAR能够综合文本、图像和视频，用于营销活动。例如，查询“环保产品的新兴趋势是什么？”将生成一份详细的报告，其中包含客户偏好、竞争对手分析和多媒体内容。

主要优势：

• 多模态能力：整合文本、图像和视频数据，以实现全面的输出。

• 增强创造力：为营销和娱乐领域生成创新的想法和解决方案。

• 动态适应性：适应不断变化的市场趋势和客户需求。

代理式RAG系统的应用范围广泛，涵盖了多个行业，展示了它们的多功能性和变革潜力。从个性化的客户支持到自适应教育和图增强的多模态工作流，这些系统应对复杂的、动态的和知识密集型的挑战。通过整合检索、生成和代理智能，代理式RAG系统正在为下一代人工智能应用铺平道路。

8 Tools and Frameworks for Agentic RAG

代理式检索增强生成（Agentic RAG）系统在结合检索、生成和代理智能方面取得了显著的进展。这些系统通过整合决策制定、查询重写和自适应工作流程，扩展了传统RAG的能力。以下工具和框架为开发代理式RAG系统提供了强大的支持，满足了现实世界应用的复杂需求。

关键工具和框架：

• LangChain和LangGraph：LangChain[42]为构建RAG流程提供了模块化组件，无缝整合检索器、生成器和外部工具。LangGraph通过引入基于图的工作流程来补充这一点，支持循环、状态持久化以及人机交互，使代理系统能够实现复杂的协调和自我修正机制。

• LlamaIndex：LlamaIndex[43]的代理式文档工作流（ADW）能够实现文档处理、检索和结构化推理的端到端自动化。它引入了一种元代理架构，其中子代理管理较小的文档集，通过顶级代理进行协调，以完成合规性分析和上下文理解等任务。

• Hugging Face Transformers和Qdrant：Hugging Face[44]提供用于嵌入和生成任务的预训练模型，而Qdrant[45]通过自适应向量搜索能力增强检索工作流程，使代理能够通过动态切换稀疏和密集向量方法来优化性能。

• CrewAI和AutoGen：这些框架强调多代理架构。CrewAI[46]支持分层和顺序流程、健壮的内存系统以及工具集成。AG2[47]（以前称为AutoGen[48,49]）在多代理协作方面表现出色，对代码生成、工具执行和决策制定提供高级支持。

• OpenAI Swarm框架：这是一个为人体工程学、轻量级多代理协调而设计的教育框架[50]，强调代理自主性和结构化协作。

• Vertex AI与代理式RAG：由谷歌开发的Vertex AI[51]与代理式检索增强生成（RAG）无缝集成，提供了一个平台，用于构建、部署和扩展机器学习模型，同时利用先进的AI能力进行稳健的、具有上下文感知能力的检索和决策制定工作流程。

• Semantic Kernel：Semantic Kernel[52,53]是微软提供的一个开源SDK，用于将大型语言模型（LLM）集成到应用程序中。它支持代理模式，能够创建用于自然语言理解、任务自动化和决策制定的自主AI代理。它已被用于ServiceNow的P1事件管理等场景，以促进实时协作、自动化任务执行和无缝检索上下文信息。

• Amazon Bedrock与代理式RAG：Amazon Bedrock[37]为实施代理式检索增强生成（RAG）工作流程提供了一个强大的平台。

• IBM Watson与代理式RAG：IBM的watsonx.ai[54]支持构建代理式RAG系统，例如使用Granite-3-8B-Instruct模型通过整合外部信息和提高回答准确性来回答复杂查询。

• Neo4j和向量数据库：Neo4j是一个突出的开源图数据库，擅长处理复杂关系和语义查询。除了Neo4j，Weaviate、Pinecone、Milvus和Qdrant等向量数据库提供了高效的相似性搜索和检索能力，构成了高性能代理式检索增强生成（RAG）工作流程的骨干。

9 Benchmarks and Datasets

当前的基准测试和数据集为评估检索增强生成（RAG）系统提供了宝贵的见解，包括具有代理和基于图的增强功能的系统。虽然其中一些是专门为RAG设计的，但其他一些则被改编用于在不同场景中测试检索、推理和生成能力。数据集对于测试RAG系统的检索、推理和生成组件至关重要。表3讨论了一些基于下游任务的RAG评估的关键数据集。

基准测试在标准化RAG系统的评估中发挥着关键作用，通过提供结构化的任务和指标。以下基准测试特别相关：

• BEIR（信息检索基准测试）：这是一个多功能的基准测试，旨在评估嵌入模型在各种信息检索任务上的表现，涵盖了生物信息学、金融和问答等多个领域的17个数据集[55]。

• MS MARCO（微软机器阅读理解）：专注于段落排名和问答，这个基准测试被广泛用于RAG系统中的密集检索任务[56]。

• TREC（文本检索会议，深度学习轨道）：提供段落和文档检索的数据集，强调检索流程中排名模型的质量[57]。

• MuSiQue（多跳顺序提问）：这是一个多跳推理的基准测试，跨越多个文档，强调从不相关的情境中检索和综合信息的重要性[58]。

• 2WikiMultihopQA：一个为跨越两篇维基百科文章的多跳问答任务设计的数据集，专注于连接多个来源的知识的能力[59]。

• AgentG（代理式RAG用于知识融合）：为代理式RAG任务量身定制，这个基准测试评估跨多个知识库的动态信息综合[8]。

• HotpotQA：一个多跳问答基准测试，要求在相互关联的情境中进行检索和推理，非常适合评估复杂的RAG工作流程[60]。

• RAGBench：一个大规模的、可解释的基准测试，包含10万个跨行业领域的示例，以及一个TRACe评估框架，用于可操作的RAG指标[61]。

• BERGEN（检索增强生成基准测试）：一个用于系统地对RAG系统进行基准测试的库，带有标准化实验[62]。

• FlashRAG工具包：实现了12种RAG方法，并包括32个基准数据集，以支持高效和标准化的RAG评估[63]。

• GNN-RAG：这个基准测试评估基于图的RAG系统在节点级和边级预测等任务上的表现，专注于知识图谱问答（KGQA）中的检索质量和推理性能[64]。

posted @ 2025-10-10 23:44 不负如来不负卿x 阅读(12) 评论(0) 收藏举报

刷新页面返回顶部

alexa2077

《Agentic Retrieval-Augmented Generation_ A Survey on Agentic RAG》论文阅读

1 Introduction

2 Foundations of Retrieval-Augmented Generation

2.3 Evolution of RAG Paradigms

2.3.1 Naïve RAG

2.3.2 Advanced RAG

2.3.3 Modular RAG

2.3.4 Graph RAG

2.3.5 Agentic RAG

2.4 Challenges and Limitations of Traditional RAG Systems

2.4.1 Contextual Integration

2.4.2 Multi-Step Reasoning

2.4.3 Scalability and Latency Issues

2.5 Agentic RAG: A paradigm Shift

3 Core Principles and Background of Agentic Intelligence

3.1 Reflection

3.2 Planning

3.3 Tool Use

3.4 Multi-Agent

4 Agentic Workflow Patterns: Adaptive Strategies for Dynamic Collaboration

4.1 Prompt Chaining: Enhancing Accuracy Through Sequential Processing

4.2 Routing:Directing Inputs to Specialized Processes

4.3 Parallelization: Speeding Up Processing Through Concurrent Execution

4.4 Orchestrator-Workers: Dynamic Task Delegation

4.5 Evaluator-Optimizer: Refining Output Through Iteration

5 Taxonomy of Agentic RAG Systems

5.1 Single-Agent Agentic RAG: Router

5.2 Multi-Agent Agentic RAG Systems:

5.3 Hierarchical Agentic RAG Systems

5.4 Agentic Corrective RAG

5.5 Adaptive Agentic RAG

5.6 Graph-Based Agentic RAG

5.6.1 Agent-G: Agentic Framework for Graph RAG

5.6.2 GeAR: Graph-Enhanced Agent for Retrieval-Augmented Generation

5.7 Agentic Document Workflows in Agentic RAG

6 Comparative Analysis of Agentic RAG Frameworks

7 Applications of Agentic RAG

7.1 Customer Support and Virtual Assistants

7.2 Healthcare and Personalized Medicine

7.3 Legal and Contract Analysis

7.4 Finance and Risk Analysis

7.5 Education and Personalized Learning

7.6 Graph-Enhanced Applications in Multimodal Workflows

8 Tools and Frameworks for Agentic RAG

9 Benchmarks and Datasets

公告