论文解读-《LLM Agents Are the Antidote to Walled Gardens》
1. 论文介绍
论文题目:LLM Agents Are the Antidote to Walled Gardens
论文领域:AI Agent
论文发表:2025 arxiv
论文地位:白皮书性质的论文(主要是观察类的论文,借助翻译完成)
论文背景:

2. 论文摘要
虽然互联网的核心基础设施被设计成开放和通用的,但今天的应用层主要是封闭的、专有的平台。开放和可互操作的API需要大量投资,而市场领导者几乎没有动力实现数据交换,这可能会削弱他们的用户锁定。我们认为,基于LLM的代理从根本上打破了这一现状。代理可以自动在数据格式之间进行转换,并与为人类设计的接口进行交互:这使得互操作性非常便宜,而且不可避免。我们将这种转变命名为通用互操作性:任何两个数字服务使用AI中介的适配器无缝交换数据的能力。通用互操作性破坏了垄断行为并促进了数据可移植性。然而,它也可能导致新的安全风险和技术债务。我们的立场是,ML社区应该接受这一发展,同时构建适当的框架来缓解不利因素。通过现在的行动,我们可以利用人工智能来恢复用户自由和竞争市场,而不牺牲安全性。
3. 背景介绍
当前的互联网被各个企业软件的专有应用程序接口API,将开发者限制在封闭生态系统中。虽然底层基础设施仍然保持开放,但是大部分面向用户的服务,变成了围墙花园。
这种数据碎片化的现象,部分源于纯粹的技术问题,构建并维护稳定可靠的集成系统很难很昂贵。集成过程中的挑战有:处理不同的数据模型;融入业务规则;管理错误;维护版本兼容性。许多本可能实现的集成系统很多是由于开发和维护成本过高。
除了技术问题,还有商业问题,为了留住用户和限制用户迁移到竞争对手,以实现商业价值最大化。这种锁定效应会推高用户的转移成本,导致权力向少数平台集中,降低现有平台所面临的竞争压力。
LLM Agent的出现是一个转折点。首先,LLM已具有和机器可读服务对接,如API接口和SQL查询,其次,具备网页交互能力的Agent能够像人类一样操作网站。即使没有API接口,Agent也可以执行一系列复杂的操作,点击按钮,填写表单,提取内容等。这两种能力的结合,使得互操作性的实现成本大幅降低,且实际上已无法被规避。即使某平台不愿开发API,但是Agent仍然可通过网页的形式来实现有效访问。这意味着平台和用户的权力关系发生变化,Agent削弱了平台以往扮演的传统的守门人的角色。
但是与此同时,如果缺乏有效监管,会引发安全漏洞,围绕特定Agent形成新的锁定效应的问题。为此,需要一套基于原则的基础框架,如图

4. 互操作性
互操作性是不同系统高效交换并利用信息的能力。从最基础的层面,语法互操作性要求在数据格式和通信协议上达成一致;语义互操作性是要求对交换的数据进行一致的解读。
上个世纪80年代的基础性研究,如开放式系统互联参考模型OSI,可移植操作系统接口标准POSIX,引入了分层抽象架构和厂商中立接口,为如今的厂商共存的技术环境奠定基础。
21世纪,Web服务框架引入企业应用,标准HTTP方法的RESTFul风格和轻量级数据载体,大幅降低了开发成本,REST的简洁性被广大主流平台采用,而OpenAPI规范也随之兴起,为接口的机器可读提供了锲约。
同时,OAuth 2.0(开放授权 2.0 协议)与 OpenID Connect(开放身份连接协议)确立了委托授权与单点登录的标准流程:第三方应用无需获取用户的账号密码,即可安全访问用户数据。这一机制有效推动了 Web 与移动服务领域互操作性的发展。
4.1 经济学视角
互操作性与产品或网络间的兼容性密切相关,这一概念在产业组织领域的经典文献中已有深入探讨:兼容性决策会通过影响消费者的转换成本与企业的投资动机,进而左右市场结果。在存在正向网络效应的市场中(即某产品对每位用户的价值会随用户数量增加而提升),企业可通过限制互操作性来维持用户锁定效应,并提高竞争对手的市场进入壁垒。而互操作性能够缓解这些影响:新进入者可借助现有主导平台的网络资源(如对接现有用户数据、适配现有服务场景),从而降低实际转换成本,并支持 “多归属行为”(即用户可同时使用多个服务的能力)。
对平台市场的实证研究证实,转换成本越低,用户流转率通常越高,市场竞争也更为激烈。
当然,针对该理论也有质疑因素,一个密切相关的概念是数据可携带性,其核心是降低数据(例如用户档案、联系人列表、内容文件等)在不同平台间迁移的成本。网络层面的互操作性与数据可携带性共同构建了一种强有力的动态机制:用户在跨平台沟通时面临的技术壁垒更低,切换服务时遇到的实际操作障碍也更少。
尽管互操作性本质上是一种技术属性,但它同时也是一种战略机制——在网络型产业中,它能够重塑市场结构、影响企业的投资动机,并提升消费者福利。互操作性的受限或缺失则会对现有主导平台有利:通过维持较高的用户转换成本、控制对互补性服务的访问权限,现有平台得以留住自身用户群体,并限制市场竞争。
4.2 互操作的影响
标准制定机构与行业联盟已制定多项技术规范,以解决互操作性在不同层面的问题。例如,联邦协议(如用于即时通讯的可扩展消息与存在协议 XMPP、用于社交网络的活动发布协议 ActivityPub)展示了开放规范如何为去中心化生态系统提供支持;而特定领域的框架(如医疗健康领域的健康级别 7 快速医疗互操作性资源标准 HL7 FHIR、金融消息领域的国际标准化组织 20022 标准 ISO 20022)则表明,针对性制定的标准能如何在受监管行业中实现互操作性。
监管机构认识到互操作性具有促进竞争的潜力,因此越来越多地采取措施推动互联互通。
尽管已取得上述进展,挑战依然存在。技术标准往往难以实现完全的语义兼容性;部分互操作性可能引发意想不到的竞争动态;而监管干预通常滞后于平台的发展演进。如今,能够大规模自动化实现集成的人工智能驱动代理(AI-driven agents)已应运而生,因此,我们必须借鉴这些跨学科经验,构建相应的基础设施,以确保互操作性始终具备稳健性、安全性与有效性。
5. 通用适配器
LLM的技术进步催生了一类新型自主系统,即LLM-based agents。这类系统融合了自然语言理解、代码生成与工具使用能力,能够连接不同类型的接口(heterogeneous interfaces)。
本文将 “基于大语言模型的代理” 定义为满足以下两个条件的任意系统:(a)能够理解并生成自然语言文本、代码或结构化格式(如 JSON、SQL)的数据;(b)通过应用程序接口(API)调用或模拟用户操作,与外部工具或网页进行交互。
与传统中间件(classical middleware)或定制化适配器(custom adapters)不同,这类代理借助大语言模型的广博知识与灵活推理能力,具备了两项足以打破传统互操作性壁垒的关键能力:格式间的自动化转换,以及与用户界面(UI)的稳健交互。
5.1 不同格式间的自动转换
LLM Agent仅需极少人工干预,就能自动在不同数据模式(data schema)或 API 规范之间实现转换。面对两种数据模式时,即便存在隐含关联,LLM Agent也能推断出字段间的对应关系,另有部分Agent可生成可执行的 “粘合” 代码(glue code)来完成转换
除 REST 接口外,在复杂基准测试中,LLM 已展现出将自然语言转换为 SQL 查询语句的能力。近期关于 GraphQL 生成的研究进一步表明,LLM 可生成符合复杂类型约束的有效 GraphQL 查询。这些转换能力降低了传统互操作性面临的壁垒:编写与维护客户端库、管理版本兼容性、编码业务规则等任务,如今只需单次提示(single-prompt)或少量示例(few-shot)即可完成(LLM 介导的互操作性早期方案可参见)。此外,适配器代码生成后可通过编程方式重复使用,使得这种方法具备极强的可扩展性。
核心观察1:LLM Agents大幅降低了集成应用程序接口(API)所需的技术工作量。
这种能力具有深远的经济意义。通过让 API 对接与格式转换的成本近乎为零,LLM Agents消除了传统上阻碍集成工作的高昂工程成本。当数据转换不再依赖定制化适配器时,专有 API(proprietary APIs)便会失去其战略优势:新进入市场的企业可轻松对接占据主导地位的服务,用户也能自由迁移平台或同时使用多个平台(多归属行为),无需承担难以承受的开发成本。
5.2 和UI界面的稳健交互
即便在没有正式应用程序接口(API)的情况下,LLM Agents也能通过读取、分析并操控底层的文档对象模型(DOM)或图形用户界面(GUI)元素,与网页界面进行交互。
以往的网页自动化方案(如基于 XPath 的爬虫或脚本化的机器人流程自动化工具(RPA))稳定性较差,且需要大量定制化开发。与之不同的是,在 ReAct 等框架引导下的 LLM 代理能够将推理与执行相结合:模型会先检查页面元素,生成动态执行计划,再逐步执行。在 MiniWoB、WebArena等基准测试中,ReAct 类代理在网页导航任务上的成功率,显著高于基于模仿学习(imitation-based)和强化学习(reinforcement-learning)的代理
具备用户界面(UI)交互能力的这类代理,再加上其在验证码(CAPTCHA)破解任务上的性能不断提升,使得面向人类设计的界面已无法有效阻止机器访问。尽管通过用户界面实现自动化的效率低于直接调用应用程序接口(API),但它仅需极少的额外工作,就能为跨数百个网页接口(web endpoint)的程序化控制提供足够的可扩展性。因此,通过界面混淆(interface obfuscation)刻意封闭平台的做法,所能带来的收益微乎其微
任何人类可进行的计算机交互,都能被足够先进的LLM Agent复刻
综合来看,这些技术进展意味着:原则上,通过图形用户界面(GUI)或应用程序接口(API)可实现的所有交互,都能由LLM Agent实现自动化。无论某服务提供的是机器可读的 API,还是仅开放网页界面,代理都能在规模化场景下,让那些专有壁垒(proprietary barriers)失去效力
6. 通用互操作性
将 “通用互操作性” 的概念正式化 —— 即明确将大语言模型代理用于实现规模化互操作性
通用互操作性(Universal Interoperability)指任意两个数字服务(无论其提供的是机器可读的应用程序接口(API),还是仅面向人类的交互界面),都能通过人工智能介导的适配器(AI-mediated adapters),实现数据交换、功能调用与工作流协同的无缝衔接能力。
在该框架中,一个基于LLM的 “通用适配器” 会动态发现可用操作、推断模式映射,并在运行时生成所需的粘合代码(glue code)或UI操作,从而摆脱对预编程集成的依赖。
通用互操作性与以往的集成范式存在本质区别,其核心在于采用动态的、人工智能驱动的适配器,而非静态中间件或本体(ontologies)。传统的语义网方法需要大量本体工作,机器人流程自动化(RPA)与基于规则的爬虫虽能实现图形用户界面(GUI)自动化,但易受界面布局变化影响,且缺乏语义理解能力。
通用互操作性在运行时(runtime)借助LLMs实现以下核心能力:推断模式对应关系、按需生成所需代码或 UI 操作、适配不断演变的接口 —— 这一过程将原本需要数周的工程工作量,转化为仅需少量提示词(a handful of prompts)即可完成的任务。该方法不仅降低了维护成本,还将无缝集成的适用范围扩展到所有可通过 API 或 GUI 访问的服务。
6.1 核心优势
通用互操作性的核心优势在于,它能大幅降低异构系统集成所需的工程工作量与成本。传统的数据集成往往需要进行大量的模式映射、开发定制化客户端库以及开展兼容性测试,这使得时间与资金投入居高不下。
基于LLM的代理能够自动推断不同规范之间的对应关系,并生成粘合代码(glue code),从而最大限度减少人工操作,同时降低维护与调试成本。因此,即便不同机构使用的是遗留系统(legacy systems),也能实现彼此间的互操作性。这一点对于信息技术(IT)资源有限的主体而言尤为实用,例如非营利组织与地方行政部门。
此外,通过降低转换成本并实现顺畅的数据可携带性,通用互操作性能够培育更具竞争性的市场,并赋予用户更大主动权。正如第 2.1 节所分析的,互操作性与可携带性会削弱锁定效应(lock-in)、增强市场竞争,并改善消费者最终权益。当人工智能(AI)代理实现两个服务间的对接后,用户可在同时使用多个平台(多归属行为)的情况下,不再面临数据或联系人丢失的问题;企业也能借助此前无法实现的集成功能获取优势。
除了我们已讨论的核心互操作性层面外,通用互操作性还具备额外优势。更低的连接壁垒会加速创新进程,并让集成能力走向大众化:终端用户编程(end-user programming)相关研究表明,科学家、分析师、医疗专业人员等领域专家,早已在通过可视化工具或基于规则的工具创建专属自动化流程。如今,借助LLMs,这些专业人员可通过自然语言描述复杂任务,系统会自动生成所需的应用程序接口(API)调用指令或脚本。
6.2 风险
然而,通过基于LLM Agent实现集成自动化,会引入诸多安全风险,而人工监管的减少则会进一步放大这些风险。正如贝恩布里奇(Bainbridge)在其 “自动化的悖论”(Ironies of Automation)中所指出的:当人类从主动操作者转变为被动监控者时,他们在突发故障中进行干预的能力会下降。大语言模型代理的自主操作会加剧这一问题 —— 它们常自主处理关键数据流,且往往缺乏透明的日志记录机制或清晰的问题上报流程。
此外,代理还易遭受对抗性攻击(adversarial attacks):攻击者可搭建恶意网页,诱导代理泄露凭证信息或执行非预期操作。这些攻击路径可能导致未授权的数据访问、权限提升(privilege escalation),以及难以察觉的系统入侵(undetected system compromise)。
此外,围绕人工智能介导的互操作性,其法律与商业环境仍处于模糊状态,平台提供商已在采取防御措施。许多服务条款明确禁止自动化抓取行为,但由于法律层面存在不确定性,相关执行力度始终不一致。无论抓取行为是否合法,网页服务提供商均已部署反机器人防御机制:其中值得注意的是,Cloudflare(云 flare 公司)开发的 “AI 迷宫”(AI Labyrinth)系统,会将疑似人工智能爬虫引导至包含无意义内容的诱饵页面,以此消耗攻击者的资源。随着未受管控的人工智能自动化行为不断扩散,网页服务可能会采取更严厉的反制措施,例如数据投毒或防护等级持续提升、难以突破的验证码(CAPTCHA)系统。
即便在非对抗性场景下,确定性的大语言模型代理(deterministic LLM agents)也可能受到提示词、界面或响应中微小变化的影响。若缺乏适当的防护措施,代理可能会虚构数据映射(hallucinate data mappings)或遗漏关键字段,进而导致难以察觉的数据损坏(silent data corruption)。
模式漂移(schema drift)与不断变化的网页界面会进一步破坏代理工作流的稳定性:HTML 元素或 API 响应格式的细微改动,都可能以难以追溯的方式(opaque ways)导致集成功能失效。
从更广泛的角度来看,LLM Agent还可能催生新型技术债务(technical debt):每一个提示词模板、解析规则以及辅助工具,都会成为代码库的一部分。当模型或下游服务进行更新时,这些相互依赖关系可能引发连锁故障(cascading failures),而排查和解决此类问题需要投入大量工程资源。
最后,通用互操作性存在在代理层重新引入锁定效应的风险。当某一代理基础设施达到足够规模时,它将获得与服务提供商谈判的优势地位,进而可能导致市场力量集中。此外,专有代理实现方案或闭源大语言模型(closed-source LLMs)可能会偏向那些存在商业合作关系的服务,这会强化网络效应(network effects),而这种效应将对小型服务提供商不利。因此,人工智能介导的互操作性非但没有消除供应商锁定(vendor lock-in),反而可能只是将这种锁定从应用程序接口(API)层面转移到了模型与代理框架层面。
6.3 通用互操作性是否有必要
在评估了收益与风险后,我们得出结论:通用互操作性是一个值得追求的机遇。尽管围绕安全漏洞、法律不确定性、技术不稳定性以及潜在代理层锁定效应的担忧均有其合理性,但这些问题本质上属于工程与治理层面的挑战,而非无法逾越的障碍。
其核心优势,即降低集成成本、通过降低转换壁垒增强市场竞争、以及实现自动化能力的大众化,能够带来显著的经济与社会效益,这些正是传统互操作性努力追求却始终未能完全实现的目标。
初创企业与小型团队几乎可即时对接主流服务;企业通过自动切换至备用服务提供商(自动故障转移)提升抗风险能力;个人用户则重新获得对自身数据及工作流的控制权。
更重要的是,这一发展趋势或许已以早期形态显现,且多起未经授权的人工智能介导代理交互相关问题已浮出水面。《连线》杂志(WIRED)和《福布斯》杂志(Forbes)分别指控 Perplexity AI 违反了 robots 协议和版权法。部分开源人工智能爬虫(例如 Firecrawl 和 Botright)包含可能违反服务条款的验证码(CAPTCHA)绕过机制。依托 OpenAI 技术开发的垃圾信息机器人 Akirabot,利用LLM生成的内容及验证码绕过机制,已成功向超过 8 万个网站发送垃圾信息。
随着Agent的有效性与可扩展性不断提升,这一趋势大概率会加剧:任何与应用程序接口(API)或网站交互的代理工作流,都会间接推动通用互操作性的实现。互联网可能面临这样一种风险,演变为一个复杂交错、相互关联的人工智能系统网络,且这些系统的交互几乎无需人工监管。因此,核心的战略性问题并非 “人工智能介导的互操作性是否会出现”,而是 “它会以一种规范、安全的方式发展,还是通过可靠性与安全性参差不齐的零散实现方式推进”。
我们主张采取积极主动的应对方式:趁当前代理生态系统尚处于相对不成熟的阶段,立即建立轻量化框架与通用规范。通过为安全性、权限管理及接口标准化设置恰当的防护机制,我们既能引导这一技术能力产生有益成果,又能降低潜在风险。通用互操作性为打造更具竞争性的数字市场提供了一条技术路径,该路径可对监管干预起到补充作用,且有望在那些因数据孤岛阻碍发展的领域中,催生全新的应用场景。
综上所述,尽管通用互操作性带来了新的挑战,但这些挑战均属于可解决的问题,而机器学习(ML)领域的研究者与从业者完全有能力应对。下一节将阐述解决这些最关键挑战的具体方向。
7. 通用互操作性的基础架构
通用互操作性需要解决一系列独特的技术与治理挑战,这些挑战的范畴超出了本文的讨论范围,也非单一研究者能够独立应对。在本节中,我们将重点梳理当前亟待探索的研究问题、处于早期阶段的原型方案,以及机器学习领域可作出高影响力贡献的方向。下文将围绕三个核心领域展开讨论,即 “代理友好型接口”“设计即安全” 与 “生态系统基础设施”。
7.1 代理友好型接口
当前的应用程序接口(API)与网站在设计之初,要么面向人类用户,要么面向传统客户端,这就迫使大语言模型(LLM)代理不得不自行推断缺失的上下文信息。当Agent获取到一份 OpenAPI 规范时,必须解读其中隐含的业务规则 —— 而这些规则本被默认是开发人员已知的信息。在缺乏额外指导的情况下,代理只能依靠试错法(即提交请求、处理失败、调整提示词)来推进,这种方式不仅会降低可靠性,还会增加集成所需的时间。
除字段描述外,补充少量元数据(metadata)就能为每个端点(endpoint)提供设计依据及隐含信息。由于这类信息采用纯文本格式,非技术用户甚至LLM都能对其进行编写。
从最简单的形式来看,元数据可以是指向人工文档的链接,也可以是任何能提供隐含上下文的有用资源(如博客文章、官方网站、论坛等);从最复杂的形式来看,服务提供商可提供一个基于大语言模型的端点,供Agents请求对模式(schema)进行澄清说明。无论采用何种具体方式,这类信息都能帮助代理避免主观猜测,更可预测地处理边缘情况(edge cases)。我们将文献列为该方向的早期研究成果。
网页也面临类似挑战:代理必须解析文档对象模型(DOM)或渲染后的超文本标记语言(HTML),才能定位元素并执行工作流。嵌入一个小型清单文件(manifest),即可为表单字段、按钮和链接添加标注,附上对应的应用程序接口(API)调用信息或结构化操作标识符。例如,结账页面可在其 “提交订单” 按钮上标注端点(endpoint)“POST /api/order”,并列出所需参数。如此一来,代理无需解析用户界面(UI),只需直接调用 API 并遵循文档化的模式(schema)即可完成操作,这不仅简化了错误处理流程,还避免了对易失效的 UI 解析(brittle UI parsing)的依赖。其中,llms.txt文件能为网页提供LLM易理解的说明,是该方向的早期探索成果之一。
这些元数据扩展将基于现有标准构建,仅需添加链接或标注,无需采用新的规范。当前的研究问题主要围绕两方面:一是要实现代理的稳定运行,需要包含多少细节信息;二是静态元数据与动态解释服务采用何种组合方式,才能在实现成本与可靠性之间达到最佳平衡。
7.2 设计即安全
当前LLM Agent框架中的安全机制不仅无法充分保护用户,也难以有效保护这些代理所访问的网站。尽管应用程序接口(API)端点通常会采用标准化的权限与速率限制系统,但网页却缺乏标准化方式来明确代理可执行哪些用户界面(UI)操作,以及操作的频率上限。这种机制空白可能会迫使网站所有者对AI Agent实施全面封禁,进而限制互操作性的实现。
对于在不可信环境中操作的用户而言,在使用生产数据前验证代理行为,仅靠静态分析是不够的。目前已有一些具备前景的研究原型向安全测试框架迈进,例如可模拟外部应用程序接口(API)的 ToolEmu,以及能创建合成任务环境的 AgentSims。而像 SandboxEval这类系统,会将代理置于隔离容器中运行,以检测权限提升(privilege-escalation)尝试。
然而,在防范针对代理的对抗性攻击(adversarial attacks)方面,仍有大量工作亟待完成。将以代理为核心的测试套件纳入持续集成流水线(continuous integration pipelines),并开发人机协同审核系统(human-in-the-loop review systems),是未来研究的关键方向。
尽管如此,即便是最完善的部署前检查也无法保证持续的安全性。目前,像运行时策略执行层这类持续监控解决方案已开始出现。但挑战在于,如何在实施这些防护措施的同时,不引入显著的延迟或误报。
我们还需要明确的操作协议,来规定当代理的操作超出既定约束范围时,应如何停止或撤销其行为。设计这些执行与纠正功能,并将其与编排框架相集成,对于维持人们对人工智能驱动型集成的信任至关重要。
7.3 生态系统基础设施
互操作性的实现需要依靠开放协议,这类协议需支持代理系统间的相互发现、任务委托及安全数据共享。目前,头部人工智能企业已提出两项重要且具有互补性的协议方案:其一为谷歌(Google)的代理到代理(Agent-to-Agent,简称 A2A)协议,该协议定义了一套包含发现流程、身份验证及结构化消息模式的框架;其二为 Anthropic 公司的模型上下文协议(Model Context Protocol,简称 MCP),这是一种带状态的通信层,具备内置可观测性与工作流跟踪功能。
尽管这两项协议均为开源性质,但它们本质上由单一公司主导控制,这引发了人们对未来生态碎片化或锁定效应的担忧。为避免此类结果,我们主张各方积极参与多方利益相关者工作组及标准制定机构,例如万维网联盟(W3C)人工智能代理协议社区组、轻量级代理标准工作组、NANDA 生态系统及 Eclipse LMOS—— 在这些平台中,学术界、商业机构及开源领域的利益相关者可共同维护协议规范。
作为一项切实的保障措施,代理框架还应支持 “适配器” 功能:这类适配器能够在 A2A、MCP 及其他新兴协议之间实现转换,从而确保即便在生态出现碎片化的情况下,代理仍能保持互操作性,且可在需要时切换至其他替代协议。
8. 其他视角
为实现全面分析,我们将审视四种主要的不同观点,并探讨每种观点如何为我们提出的解决方案提供参考,或如何融入这些方案之中。
8.1 监管优先视角
有一种观点认为,人工智能介导的抓取(AI-mediated scraping)或用户界面自动化(UI automation)等技术变通方案,只是在拖延真正的解决方案 —— 即强制性开放应用程序接口(API)要求。若缺乏具有约束力的义务约束,平台只要在经济上有利可图,就会有强烈动机维持专有壁垒。在这类问题得到解决之前,用户驱动型代理将始终处于法律灰色地带(legal gray area),并可能面临权限存疑的禁止令(cease-and-desist orders)。
然而,监管流程往往存在滞后性且多为被动响应:当新法规正式出台时,占据主导地位的生态系统可能已巩固其市场地位。当前,人工智能介导的互操作性可提供数据可携带性工具,在监管机构跟进完善法规的同时,落实数据可携带性原则。尽管如此,我们完全认同技术解决方案必须辅以健全的法律框架:代理接口应纳入监管要求(如明确的同意模型、数据使用限制),且标准制定机构应与立法者开展协作,以确保技术方案既具备可行性,又符合法律规定。
8.2 优先采用本体论而非定制格式
另一种观点强调,要实现可靠的数据交换,需要依靠经过正式验证的本体论(ontologies),而非临时设计的模式映射(schema mappings)。语义网(Semantic Web)研究表明,共享注册库(如schema.org)与严格的模式验证如何能够防范语义偏移(semantic drift)。然而,标准化进程的缓慢,以及本体工程(ontology engineering)对专业知识的高要求,限制了这些技术的广泛应用。目前可行的折中方案是:在条件允许的情况下采用成熟的本体论,同时借助大语言模型(LLMs)弥补空缺或处理边缘情况。
8.3 安全优先的审慎视角
从安全角度来看,功能强大的人工智能代理(AI agents)类似于 “无监督代码执行”—— 这类代理存在数据泄露、利用漏洞,或大规模自动化发起攻击的潜在风险。一种应对方案是将代理限制在范围明确、经人工审批的任务中,且在其与外部进行交互前设置明确的检查点。但如此严格的限制会削弱人工智能介导集成所具备的灵活性与效率优势。
更均衡的思路是采用 “组合防御” 策略:代理需满足以下三点要求:a) 依据已签署的权限文件运行,文件中明确规定允许访问的端点(endpoints)、速率限制(rate limits)及数据使用政策;b) 在隔离的沙箱(sandboxes)环境中运行;c) 接受持续监控系统的监管。该模型既能保留严格的监管机制,又可实现自动化集成。
9. 总结
基于大语言模型(LLM)的代理实现通用互操作性,可提供一种降低集成成本、降低多归属壁垒(barriers to multi-homing)并推动自动化大众化的机制。该方法能将复杂的集成项目转化为基于提示词的交互,由此可大幅节省成本、增强市场竞争力,并扩大新应用的可及范围。
与此同时,我们也发现了若干挑战:安全漏洞、法律不确定性、代理行为的不可预测性、技术债务的累积,以及代理层锁定(agent-layer lock-in)的风险。尽管这些问题需要采取措施加以缓解,但它们绝非无法克服 —— 通过精心设计的技术方案与治理机制,完全可以有效解决这些挑战。
为此,我们提出了三大基础支柱:代理友好型接口、设计即安全,以及生态系统基础设施。这些技术措施需要与监管机构及标准制定机构开展互补性协作,从而在代理接口内确立明确的同意模型与数据使用约束规则。
我们诚挚邀请机器学习(ML)研究领域的同仁为这一基础设施建设贡献力量,例如:开发并公开权限清单与政策检查工具、创建并维护开源适配器库、编写接口元数据文档,以及设计严谨的评估套件与认证流程。
从短期来看,这些努力将打造出更安全、更可靠的代理工作流;从长远来看,它们有助于打破根深蒂固的数据孤岛,通过真正的数据可携带性赋予用户更多自主权,并为具备韧性与竞争力的数字市场提供支撑。当前人工智能代理技术仍处于发展阶段,此时奠定这一基础,我们便能引导互操作性朝着安全、公平且可持续的方向发展。

浙公网安备 33010602011771号