AiTM

注:该文章未找到开源代码。

摘要

Large Language Model-based Multi-Agent Systems (LLM-MAS)通过通信框架传递信息进行合作,但是现有框架不安全。
与现有攻击LLM-MAS中的一个agent从而摧毁整个LLM-MAS不同,AiTM通过篡改信息来破坏LLM-MAS。
文章使用AiTM对多个通信框架和应用进行测试,得出结论:现有通信框架鲁棒性不足。

疑问:
文章仅给出这种可拦截的可能性,并未提到具体的拦截细节,未开放试验代码。
image

LLM-MAS 常为去中心化部署架构(Yang et al., 2024; Guo et al., 2024a)—— 智能体可部署在不同服务器、承担不同任务,其相互通信依赖公共 / 网络传输链路,而这类链路本身存在被窃听的固有漏洞(Belapurkar et al., 2009)。

方法

拦截信息,根据目标agent的身份和和当前内容生成特定的指令附加在拦截的信息后转发给受害者。指令的生成遵循着自我优化的原则,通过评估前一条指令与当前拦截的信息在取得目标上的进展,来生成当前的指令,指令就是恶意提示词(附加在被拦截的信息后)。

Agent settings

LLM-MAS中的每个agnet都有自己的角色和能力(通过prompts)实现,agent间通信采用固有的通信方式(4种见下图)
数学表达略。(mac补充)
image

Threat model

限制了恶意agent的能力

  1. Limited Adversarial Capacity,只能攻击受害agent
  2. Limited Knowledge,只知道LLM-MAS当前处理的任务,甚至不知道LLM-MAS中agent的模型。
    只能通过拦截转发信息给受害agent来达到最终目的。

Attacking strategy

值得一提的是反思方法

mac补充

实验

对4 类典型的智能体通信结构(基于2 个主流多智能体框架(AutoGen/Camel) 实现这些通信结构)+2 个真实世界的 LLM-MAS 应用案例(MetaGPT、ChatDev)展开测试,整体实验体系可概括为「框架 + 结构 + 真实案例」三层测试,

结论

Agent-in-the-Middle (AiTM)有效,现有多agent协助通信机制有问题,需要更具有鲁棒性的multi-agent systems

In this work, we introduce a novel attack, Agent-
in-the-Middle (AiTM), which directly targets inter-
agent communication in LLM-based multi-agent
systems (LLM-MAS). AiTM demonstrates the abil-
ity to compromise the entire system by manipu-
lating messages exchanged between agents. This
attack exposes a critical vulnerability in the funda-
mental communication mechanisms of LLM-MAS
and highlights the urgent need for securing inter-
agent communication and developing more robust
and resilient multi-agent systems.

思考:

  1. 这类对抗攻击文章,多采用RL思想,通过不断奖励靠近实现目标的提示词来完成扰动样本的生成,达到最终的破坏目的。
  2. 本篇虽说是Multi-Agent Systems场景下,更像:LLM攻击LLM,利用LLM的语义理解来找目标LLM agent的扰动样本,从而实现破坏agent正常功能,只不过,这里的故事是单个agent被破坏,传播到下一个agent,从而使得整个系统崩塌。
  3. 本篇文章的故事场景:多智能体协作中,一个非该协作团队中的恶意agent有着能拦截目标agent信息的能力,从而附加恶意指令到原信息中导致目标agent做出错误判断,最后导致整个系统无法工作
posted @ 2026-03-21 22:24  main(void)  阅读(2)  评论(0)    收藏  举报
.c_ad_block { display: none !important; } #ad_t2{ display: none !important; }