【文献翻译】题目：KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents

【文献基础信息】

原文标题：KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents
原文作者：Yuqi Zhu，Shuofei Qiao，Yixin Ou等
发表来源：Zhu Y, Qiao S, Ou Y, et al. Knowagent: Knowledge-augmented planning for llm-based agents[C]//Findings of the Association for Computational Linguistics: NAACL 2025. 2025: 3709-3732.
原文链接：https://aclanthology.org/2025.findings-naacl.205/
翻译主题：知识增强大语言模型

【翻译声明】

本博客发布的文献翻译内容，均为本人出于个人学习、学术研究目的完成的自发性翻译练习，不构成正式的学术翻译成果。
所译文献的原文版权归原作者、原出版机构及相关权利方所有；本译文仅用于学术交流与知识分享，不涉及任何商业用途，不向读者收取任何形式的费用。
由于本人学识水平、翻译能力有限，译文中可能存在术语偏差、表述疏漏或理解不当之处，恳请各位同好、前辈批评指正，欢迎通过评论或私信交流探讨。
若原文作者、相关权利方认为本译文存在侵权问题，请随时通过博客私信与本人联系，本人将在第一时间核实情况，并对相关内容进行删除、修改或下架处理。
感谢各位的理解、支持与监督！

【翻译正文】

摘要（Abstract）

大语言模型（LLM）在复杂的推理任务中显示出巨大的潜力，但在应对更复杂的挑战时，尤其是在通过生成可执行操作与环境交互时，它们还不够。这种不足主要源于语言智能体缺乏内置的动作知识，在任务解决过程中无法有效地指导规划轨迹，导致规划幻觉。为了解决这个问题，我们提出了KNOWAGENT，这是一种新的方法，旨在通过结合明确的动作知识来提高LLM的规划能力。具体来说，KNOWAGENT采用动作知识库和知识型自学习策略来约束规划过程中的动作路径，从而实现更合理的轨迹合成，从而提高语言智能体的规划性能。基于各种骨干模型在HotpotQA和ALFWorld上的实验结果表明，KNOWAGENT可以实现与现有基线相当或更优的性能。进一步的分析表明，KNOWAGENT在规划幻觉缓解方面的有效性。

一、引言（Introduction）

随着人工智能（AI）的进步，语言智能体在解决复杂问题方面变得越来越重要。这些智能体围绕大语言模型构建，通过各种策略增强其任务规划能力，包括任务分解、深思、协作分工，以及外部工具的利用等。尽管当前的提示技术在为一些闭源语言模型提供良好的规划能力方面很有效，但这些方法往往受到模型内在理解能力和所训练知识范围的限制。为了满足不同领域对广泛应用和定制的需求，如问答、网页浏览、机器人等，研究人员正在探索Agent Tuning作为增强模型能力的一种手段。这涉及通过综合特定任务的轨迹来微调模型，使其能够采取一系列有效行动来处理复杂情况。

然而，当涉及到执行计划任务时，尤其是在开源模型中，仍然存在问题。模型经常生成违反既定知识规则或常识的计划，这种现象我们称之为规划幻觉。该术语描述了模型可能生成不必要或冲突的动作序列的情况，例如“在不执行搜索操作的情况下尝试查找信息”或“在不验证表和苹果是否存在的情况下试图从表中挑选苹果”。

为了解决这些问题，我们提出了KNOWAGENT，它侧重于利用外部动作知识来增强合成轨迹，目标是解决计划幻觉（见图1）。我们的开发基于几个关键步骤：最初，我们创建了一个广泛的行动知识库，其中融合了与特定任务相关的行动规划知识。该数据库充当外部信息库，指导模型的动作生成过程。随后，通过将动作知识转化为文本，我们使模型能够深入理解和利用这些知识来创建动作轨迹。最后，通过一个知识型自学习阶段，我们使用从模型的迭代过程中开发的轨迹来不断提高对动作知识的理解和应用。这一过程不仅增强了代理的规划能力，还增强了他们在复杂情况下的应用潜力。

图1:KNOWAGENT的概述。智能体可以利用外部行动知识库来应对和解决复杂的规划挑战。

基于各种骨干模型的HotpotQA（Yang等人，2018）和ALFWorld（Shridhar等人，2021）的实验结果表明，KNOWAGENT可以实现与现有基线相当或更优的性能。进一步的分析表明，KNOWAGENT在规划幻觉缓解方面的有效性。我们将我们的贡献总结如下：

我们引入了KNOWAGENT，它采用知识渊博的自学习将外部动作知识纳入模型，以完善和增强语言代理的内在规划能力。
我们进行了全面的实验，证明KNOWAGENT可以在HotpotQA和ALFWorld数据集上匹配或超越其他基准模型。
进一步的分析验证了将行动知识纳入规划目的的有效性。我们还展示了使用LLM手动精炼的动作知识的可能性，从而减少人力并提高绩效。

二、背景

语言智能体主要通过产生内在思维和可执行的行为来观察外部世界。在本文中，我们遵循并进一步改进了Yao等人（2023b）提出的规划轨迹格式，以训练和评估我们的KNOWAGENT。传统上，规划轨迹τ可以用思考-动作-观察（T，a，O）的三元组来表示，其中T表示语言代理的内部思考，a表示可执行的动作，O表示来自环境的反馈信息。就此而言，时间t的轨迹历史H可以定义为：Ht = (T0, A0, O0, T1, ..., Tt−1, At−1, Ot−1)。然后，对语言代理进行强化训练，使其根据历史记录生成Tt和At。给定一个具有参数θ的参数化概率语言智能体π，基于Ht生成下一步思考的过程可以表示为：

其中Tti和|Tt|分别是第i个token和Tt的长度。随后，动作At将根据Tt和Ht确定：

同样，Ajt和|At|分别表示第j个标token和At的长度。最后，动作At的反馈结果将被视为观测值Ot并添加到轨迹中，从而生成新一轮的轨迹Ht+1。值得注意的是，这里的Ai具体指的是轨迹中的动作，这与稍后讨论动作集Ea时的动作Ai相同。

三、KNOWAGENT

如图2所示，我们的方法KNOWAGENT从定义动作知识开始。然后，它利用这些知识生成规划路径，并通过知识渊博的自学习机制不断改进这些路径，迭代地增强框架。

图2:KNOWAGENT的总体框架。最初，动作知识到文本将特定任务的动作知识转换为文本描述。接下来，规划路径生成使用提示和这些知识来引导LLM创建规划路径。最后，在知识自学习中，该模型使用生成的规划轨迹迭代优化以提高性能。

3.1 动作知识的定义

动作。Ea={a1，…，aN-1}表示一组动作，其中包括LLM为完成特定任务而必须采取的离散动作。

动作规则。R={r1，…，rN−1}概述了确定模型内动作转换的逻辑和顺序的规则。这些规则直接规定了允许的动作转换rk:ai→ aj，基于动作或任务特定要求之间的内在关系。

动作知识。动作知识，表示为（Ea，R），包括一组定义的动作Ea和控制其转换的规则R。不同任务的动作知识的组合形成了一个动作知识库，也称为动作KB。然后，知识库将作为生成行动和制定决策的重要指导，这对于减少潜在的计划幻觉问题至关重要。

提取动作知识的策略。鉴于各种任务中涉及的动作知识多种多样，完全手动构建既费时又费力。为了克服这一点，我们利用GPT-4（OpenAI，2023）进行初始构建，GPT-4以其在此类任务上的出色性能而闻名（Liu等人，2023a；Ouyang和Li，2023）。我们的两阶段流程从领域专家向LLM提供任务知识开始，LLM会生成一份初步的行动和规则列表。

由于初始输出通常包括冗余，因此人类专家会过滤和细化此列表。在第二阶段，将细化的动作和规范重新引入LLM，以生成最终的动作规则集。这两种方法的详细比较见§4.3。

3.2 基于动作知识的规划路径生成

3.2.1 动作知识到文本

图2说明了从动作知识到文字的转换过程。最初，我们通过识别与任务特定需求相关的动作，利用之前的数据集分析和LLM的固有知识，建立行动知识库。然后将此信息转换为文本格式，以方便后续操作。作为示例，我们引用了HotpotQA中的一个操作规则（Yang等人，2018）-搜索：（搜索、检索、查找、完成）。此规则表示搜索可以导致多个路径：继续作为搜索，更改为检索或查找，或前进到完成。

3.2.2 路径生成

利用动作知识，该模型利用这种洞察力来简化任务的规划过程。它通过在动作规则R1 ∧ R2 ∧ . . . ⇒ P的应用指导下制定连贯的规划路径来实现这一点。为了便于路径生成，我们开发了专门的提示，扩展到基本任务描述之外，集成了图2（或图6）所示的段。

我们的方法完全基于动作知识，并在四个关键部分展开：（1）它从动作知识概述开始，设定基本概念和规则。（2）接下来是每个动作步骤的定义，详细说明了每个动作的操作方面和意义。（3）在此基础上，规划路径生成原理深入研究了输出生成的约束。（4）最后，规划路径演示提供了实际例子，为在各种情况下调整这些策略提供了灵感。这些部分中的每一个都在表达动作知识、指定动作和阐明利用动作知识规划路径生成的过程中发挥着至关重要的作用。在此背景下，理解路径和轨迹之间的区别至关重要。路径仅代表智能体采取的一系列动作，而轨迹包括模型在解决问题过程中的完整输出，将路径作为其结构的一部分。

在这里，我们简要概述了轨迹合成的过程。这个轨迹表示为τ，由许多计划中的四元组组成。每个四元组（P，T，A，O）都封装了动作路径P、智能体的内部思维过程T、可执行动作A和环境反馈O。历史轨迹被重新表述为：Ht=（P0，T0，A0，O0，…，Tt-1，At−1，Ot-1）。基于此，智能体准备去生成Pt、Tt和At。考虑具有参数θ的参数化概率语言代理π，根据Pt生成后续动作路径的机制表示为：\(p(\mathcal{P}_t|\mathcal{H}_t) = \prod_{k=1}^{|\mathcal{P}_t|} \pi_{\theta}\left(\mathcal{P}_t^k | \mathcal{H}_t, \mathcal{P}_t^{<k}\right)\)。这里Ptk和|Pt|表示第k个token和Pt的总长度。然后我们扩展了方程1和2中使用的方法。推导思想和行动的过程可以重新表述为：

3.3 通过知识型自我学习优化规划路径

在这个阶段，我们引入知识型自我学习。我们的目标是通过迭代微调帮助模型更深入地理解动作知识。如算法1所示，我们的方法从初始训练集D0和一个未训练的模型M0开始，进而合成初始轨迹T0 = {τ1, τ2, . . . , τn}。经过过滤后，这些初始结果为进一步的训练提供了信息，生成了初步的模型版本M1。随后，M1对D0进行重新评估，以创建新的轨迹T1={τ1′，τ2′，…，τ′n}。这些轨迹与T0一起经历基于动作知识的过滤和合并过程。然后，利用这组改进的轨迹来微调模型，从而得到改进的版本M2。我们继续迭代，直到Mtest的性能改进变小，此时我们停止迭代过程。

基于知识的轨迹过滤与合并。我们知识型自学习方法通过两个关键阶段提高了轨迹质量：（1）过滤：我们首先根据结果选择正确的轨迹Tcorrect。具体到任务HotpotQA，我们应用动作知识来进一步细化这些轨迹。这种改进涉及删除任何与提供的AKm不一致的轨迹，特别是那些具有无效动作或无序动作序列的轨迹。（2）合并：然后我们合并不同迭代中模型生成的轨迹。对于处理相同任务的轨迹，我们根据效率对其进行改进，特别是保留更高效（更短路径）的轨迹，以确保最佳的问题解决效果。

四、实验

4.1 设置

我们在HotpotQA（Yang等人，2018）和ALFWorld（Shridhar等人，2021）上评估了KNOWAGENT。我们使用了Llama-2-{7,13,70}b-chat（Touvron等人，2023）作为骨干模型，并将KNOWAGENT应用于Vicuna（Zheng等人，2023年）、Mistral（Jiang等人，2023a）、GPT-3.5-Turbo（OpenAI，2022年）和GPT-4（OpenAI）。我们将KNOWAGENT与各种基线进行了比较，包括CoT（Wei等人，2022）、ReAct（Yao等人，2023b）、Reflexion（Shinn等人，2023）、FireAct（Chen等人，2023a）和NAT（Wang等人，2024）。关于我们实验的更多细节，请参见附录A。

4.2 主要结果

KNOWAGENT vs 基于提示的方法。在表1中，我们展示了在HotpotQA和ALFWorld上评估的KNOWAGENT和各种基于提示的方法的F1得分和成功率。首先，在这两个数据集中，KNOWAGENT在开源模型上始终优于基于提示的基线。值得注意的是，13b型号的性能提高了↑15.09% （平均）和↑49.01% （看不见）对这两个数据集进行ReAct。此外，我们的方法在13b和70b型号上都超过了GPT-4在ALFWorld上的性能。其次，我们在ALFWorld上进行了额外的实验，比较了未精炼的KNOWAGENT*与ReAct的性能。

表1:KNOWAGENT在HotpotQA和ALFWorld上的总体性能。评估指标分别为F1分数（%）和成功率（%）。策略是指每种方法背后的代理学习范式。每个主干的最佳结果都以粗体标记。表2所示的结果验证了行动知识本身的有效性。此外，观察到不同提示方法之间的有效性存在差异，这与当前的研究相一致，该研究侧重于通过多种策略（如多智能体专业化）增强模型处理复杂任务的能力。具体来说，我们的研究旨在利用外部行动知识来促进模型更准确地完成复杂任务。这是通过最小化无效操作（在HotpotQA上）和促进更好地反映现实世界情况的操作序列（在ALFWorld上）来实现的。进一步的分析，特别是与HotpotQA中的无效操作有关的分析，将在§4.3中讨论。

表2:ReAct和KNOWAGENT在ALFWorld上与Llama-2-13b的比较实验。这里的标签表示与动作知识集成但未微调的KNOWAGENT版本。

KNOWAGENT vs 微调方法。我们在这里的比较侧重于KNOWAGENT与FireAct和NAT的微调结果。这些结果也揭示了我们方法的有效性。与依赖闭源模型生成微调数据的FireAct和NAT不同，KNOWAGENT会合成自己的数据。例如，在HotpotQA上，FireAct和NAT使用来自GPT4/GPT-3.5-Turbo的500个轨迹，而KNOWAGENT每次迭代选择性地微调不到300个自合成的正确轨迹。这一策略也反映在ALFWorld中。结果表明，注入先验知识的自合成数据可以获得与GPT-4等更先进模型合成的数据相当的结果。

4.3 分析
动作知识在自学习中的作用随着迭代次数的增加而增长。图3显示了使用Llama系列模型对HotpotQA进行动作知识消融的结果。无论迭代次数多少，使用动作知识（w/actionKB）的效果都优于没有动作知识（w/w）的效果。另一个有趣的发现是，随着迭代次数的增加，w/o-action-KB和w/action-KB之间的性能差距变得更加显著，这表明引入动作知识的优势变得更加明显。我们认为这可以归因于行动知识和自学之间的良性循环。在动作知识的约束下，该模型综合了高质量的轨迹进行迭代训练。反过来，对更高质量轨迹的训练使模型能够更好地学习动作知识，从而生成更高质量的轨迹。

图3:HotpotQA上Llama-2模型中动作知识的消融研究。这里w/Action KB表示原生的KNOWAGENT，w/o Action KB表示删除特定任务的动作知识。

迭代训练提高了模型的熟练程度。图4显示了不同模型中迭代训练效果的比较分析。（1）迭代次数。值得注意的是，将迭代次数从一次增加到两次，可以大大优化性能。将迭代次数扩展到四次会继续提高结果，尽管收益会逐渐变小。这些结果与之前的研究（Li等人，2023b；Wu等人，2023）一致，证明了迭代自学习在增强模型对训练数据的理解方面的有效性。这一模式也体现了人类“以旧求新”的学习原则。（2）不同的基础模型。我们还探索了除具有7b参数尺度的Llama之外的其他骨干模型，如Vicuna-7b和Mistral-7b。结果表明，我们的方法在不同的预训练和微调模型中是有效和可推广的。此外，它们之间的性能差异也表明了不同模型吸收和利用这种结构化外部知识的能力存在差异。

图4 知识型自学习迭代的消融研究。我们研究了自学习迭代对一系列模型的影响，包括Llama-2-7b、Llama-2-13b、Vicuna-7b和Mistral-7b。这里iter0表示任何训练前的基线表现。

行动知识有效地缓解了计划幻觉。我们在表3中显示了不同方法产生的无效和无序行为的统计率。鉴于FireAct只涉及搜索和完成操作，我们在这里的分析中省略了它。结果表明，结合动作知识可以显著降低错误动作的频率和无效动作路径的可能性，从而提高模型在特定任务上的精度。为了进一步证实这一说法，我们参考了HotpotQA中KNOWAGENT和ReAct的实验结果，如图5所示。对于给定的问题，ReAct的操作序列遵循Lookup->Search模式，这是有问题的，因为Lookup操作依赖于后续的搜索步骤。然而，在有约束的情况下，KNOWAGENT避免了这种错误的序列，提高了任务的准确性。

表3：使用Llama-2-13b在HotpotQA上的不合理动作率。此处，“无效”指不符合动作规则的动作，而“错序”指动作逻辑顺序上的不一致。

图5:KNOWAGENT（蓝色）成功完成计划，而ReAct（橙色）表现出与行动知识相矛盾的计划幻觉。

蒸馏知识 vs 人工设计知识。为了探究高级大型语言模型（LLM）是否能取代人工构建特定任务的动作知识，我们将GPT-4（gpt-4-0613）蒸馏出的结果与我们人工设计的结果进行了比较，两者使用相同的动作但规则不同（见表4）。对于HotpotQA，GPT-4蒸馏出的动作知识更为简洁，循环动作少于人工设置的动作。这种效率在较简单的任务中得以体现，其表现与人工定义的方法相当，而在需要更长动作序列的更复杂任务中则表现不佳。对于ALFWorld，GPT蒸馏出的知识与人手工制作的知识高度一致，凸显了该模型理解现实世界约束的能力。与先前的研究（Ding等人，2023年；Zhou等人，2024年）一致，这种蒸馏出的知识有助于模型理解现实世界的局限性，其效果与人工创建的知识几乎没有差异。

表4：手动知识与蒸馏动作知识的对比实验。手动知识代表人工构建的知识，而蒸馏知识代表从GPT-4中提取的知识。

错误分析。在分析KNOWAGENT的能力时，我们发现了其局限性，特别是在处理复杂查询和总结长文本方面。它难以有效提炼关键信息，往往无法准确回应。核心问题在于其处理长文本的推理和记忆能力不足。因此，生成的回应可能不正确或与所提问题不符，例如在需要特定实体时仅给出简单的“是/否”回答。在HotpotQA中，我们识别出两种主要错误类型：不一致错误和总结错误，详见附录C，其中我们还比较了我们的方法与FireAct在模型扩展性方面的表现。

效率分析。关于效率，以ALFWorld的Llama-2-7b为例，KNOWAGENT规定每个周期约20小时，总共约40小时用于训练。相比之下，专注于精确轨迹训练的FiReAct需要更多的训练数据。在整合了GPT-4合成的约710条轨迹后，FireAct的总训练时间延长至约50小时。关于内存使用，当在8个NVIDIA V100 32G GPU上运行时，KNOWAGENT和FireAct的内存要求相似。

五、相关工作

基于LLM的智能体。基于LLM的智能体（Wang等人，2023b；Xi等人，2023；Durante等人，2024）已成为LLM兴起后最流行的人工智能系统之一（赵等人，2022；Qiao等人，2023b；Zhu等人，2024；Li等人，2024a；Jiang等人，20244）。他们通过自然语言表达的动作观察对学习与外部世界的互动。之前的工作主要集中在通过利用人为（Yao等人，2023b；Li等人，2023a；Talebirad 和Nadiri，2023；Qian等人，2023）或机器生成（Zhou等人，2023b；Chen等人，2023c，b）提示来释放LLM作为语言代理核心的潜力。最近，人们越来越重视通过微调赋予开源LLM代理能力（Yin等人，2023；Qiao等人，2024；Shen等人，2024）。然而，现有语言智能体微调方法的训练轨迹数据在很大程度上依赖于LLM的注释。这可能会导致包含违反某些动作知识规则且难以识别的轨迹，从而导致训练过的语言代智能体的动作性能不稳定。为了提高智能体的性能和可靠性，已经提出了各种方法。一些工作侧重于设计专门的策略来增强智能体能力。Guan等人（2024）介绍了AMOR，这是一种在有限状态机（FSM）上构建推理能力的代理框架。Li等人（2024c）引入了一种用于智能体的“形式LLM”框架，将自然语言的表达能力与形式语言的精度相结合，以增强智能体的能力。研究工作（Jiang等人，2023b；Dou等人，2024；Yang等人，2024b）也探索了自我提升的方法，其中模型通过在复杂任务中的迭代学习不断提高其解决问题的能力。

知识增强大语言模型。先前的工作（Guu等人，2020；Lewis等人，2020，Izacard等人，2023）侧重于通过检索增强LLM中的知识。由于LLM中丰富的参数化知识（Chen，2023；Feng等人，2023），其他一些工作（Liu等人，2022；Yu等人，2023；Sun等人，2023b）提倡知识生成而不是检索。随着增强语言模型（ALM）的出现，许多研究（Trivedi等人，2023；Li等人，2023c；Vu等人，2023，Qiao等人，2023a）通过整合来自搜索引擎、知识库和维基百科文档等外部工具的知识，增强了LLM的推理能力。最近的研究探索了各种方法来提高LLM在复杂环境中的性能：一些工作（Zhou等人，2023b；Ye等人，2023）引入了结构化知识来调节多智能体工作流程，而另一些工作则开发了针对特定环境推理的状态感知指南（Rozanov和Rei，2024；Fu等人，2024）或专注于长期任务的特殊记忆机制（Li等人，2024b）。在这项工作中，我们提出了knowledge语言增强智能体，它结合了动作知识规则来约束轨迹生成，减少了生成轨迹中不合理动作逻辑的发生。

六、结论

在这项研究中，我们引入了KNOWAGENT，这是一个框架，旨在通过将外部动作知识纳入合成轨迹来减轻计划幻觉。我们的方法涉及利用这些知识来指导模型的动作生成，并采用知识渊博的自学习阶段进行持续改进。我们在各种模型上的实验表明，KNOWAGENT有效地与其他基线竞争或超越了其他基线，展示了整合外部行动知识以简化规划流程和提高绩效的好处。

局限性

我们的局限性如下：

任务可扩展性。目前的实验仅在常识问答和家庭数据集上进行。然而，我们的方法也适用于更广泛的领域，包括医学（Tang等人，2023）、算术（Cobbe等人，2021）、网页浏览（Xie等人，2023年）和实体智能体（Yang等人，2024年）。这表明了一种有待探索的更广泛适用性的潜力。

多智能体系统。目前，我们的研究主要集中在单个智能体的应用上。未来的研究应探索多智能体系统，如Chen等人（2023c）和Qiao等人（2024），它们通过分工和协作完成规划任务。这种增强可以帮助智能体更好地处理复杂的任务并适应不断变化的环境。

动作知识库的自动化设计。创建动作知识库仍然是手工、耗时和劳动密集型的。即使我们使用GPT-4来提取动作知识，也需要手动调整。未来的工作应该旨在自动化这一过程，以减少人工劳动，提高模型的自主学习和通用性。

posted @ 2025-12-19 17:08 Piedpiper777 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

mayday-zg