Web 4.0：Agentic Web

传统意义上的“智能体网络”是指智能体像我们一样“使用”网络。

人们对“智能网络”的关注度很高，这也不无道理——人工智能代理能够代表我们在互联网上行动的想法确实很有吸引力。但如果你仔细观察大多数人所说的“智能网络”，你会发现他们描述的其实相当保守。他们说的其实是我们现有的网络，只不过点击操作是由人工智能代理代替我们完成的。（参见Operator、CoWork、Project Mariner等项目。）

目前的设想大致是这样的：你让代理帮你预订机票，代理会自动浏览航空公司网站、填写表格、比较价格并完成购买。代理取代了你作为用户的角色。网络本身保持不变（依然是为人眼、人手和人注意力而设计的），代理只是学习如何操作我们自己构建的控制系统。

按回车键或点击查看完整尺寸的图片

图 5 来自论文《Agentic Web: Weaving the Next Web with AI Agents》（来源：arXiv）。

这很有用，甚至令人印象深刻。但这并非一个“新网站”，而只是在旧网站之上实现的自动化。

有些讨论甚至更进一步，概述了一种更新后的网络架构，以便智能体能够更轻松地与之交互。这种架构将网页改造为一种专为人工智能定制的API。这也非常有用，并且是演进过程中的自然组成部分。

但我认为这些讨论都忽略了一个更重要的问题。

网络已经开始适应代理商的需求。

值得注意的是，智能体网络并非仅仅停留在理论层面——它已经开始标准化。WebMCP（Web模型上下文协议）是W3C社区组的标准，由谷歌和微软联合开发，它允许网页通过浏览器直接向人工智能代理暴露结构化工具。

网页无需再像以前那样抓取 DOM 或解读屏幕截图，而是可以将自身功能（例如“如何搜索航班”、“如何提交支持工单”）声明为具有明确架构和安全边界的结构化工具。这项功能已在 Chrome 146 版本中提供早期预览，这是一个重大进步。

按回车键或点击查看完整尺寸的图片

WebMCP工作原理概述 — 来源：WebMCP.link

这一点对我们的讨论至关重要，因为它证实了一个重要事实——浏览器厂商现在也承认人工智能代理是网络上的重要参与者。平台正在积极演进以适应它们。代理不再仅仅是网络之上的一个层，它们正在被融入到网络的设计之中。

但请注意，这里关注的重点在于假设。WebMCP 是为访问网页的经纪人设计的。它帮助网页向新来的经纪人介绍网页的功能和操作方法。经纪人仍然是访客，网页仍然是别人的房子，只是铺上了更舒适的地毯。

如果经纪人不来看房怎么办？如果房子自己盖起来怎么办？

这不是你父母那一代的“智能家居网站”。

如果网络不仅仅是“经纪人去的地方”呢？

以浏览器为例。它存在于每台设备上。它拥有渲染引擎、脚本运行时环境，可以访问摄像头、麦克风、加速计、GPS、本地存储，以及经过三十多年对抗压力不断强化的安全模型。它可以显示从文本表单到完整 3D 环境的任何内容。它可以完全在本地运行复杂的应用程序，无需安装、无需帐户、无需服务器。

按回车键或点击查看完整尺寸的图片

许多人将“浏览器”视为通往“远程内容”的窗口。

我们通常把浏览器想象成一个视口——一个让你透过它看到“存在于别处”的内容的窗口。但它并非如此。它是一个运行时环境。可以说是迄今为止部署最广泛、功能最强大的运行时环境。而且，它无需任何人安装。

它就在那里。

现在想想人工智能代理真正需要什么。它们需要感知世界的方式，需要行动的方式，需要与用户沟通的方式——不仅仅是通过文本，而是通过能够实时演进的丰富、交互式、动态界面。它们需要一个安全、沙盒化的环境，让它们能够在不危及用户系统安全的情况下运行。

我们现有的浏览器已经具备所有这些功能。

从文物到居住空间

大多数人都熟悉人工智能为他们创作内容。高级用户甚至熟悉人工智能平台亲切地称为“交互式作品”（真的吗？！）的东西——图表、小型应用程序、可视化图表。

你提出问题，人工智能生成结果，你接收输出结果。

这是一种富有创意且高效的工作流程，但它遵循的是一种“老派”模式：

编辑 -> 生成 -> 查看

人工智能是作者，你是读者，作品是最终成品。

但如果这件文物并非终点呢？如果它仅仅是起点呢？

想象一下，人工智能不仅生成网页并交给你，还会进入网页内部。它会创建自己的界面，观察你如何与它互动，并根据你的反馈调整界面。

按回车键或点击查看完整尺寸的图片

这种愿景描绘的是一个更大的“代理网络”，其中代理存在于DOM中，并像穿戴一层交互式皮肤一样与用户共享。

不是像聊天机器人回复你的下一条消息那样，而是像生物系统适应环境那样。

页面不是输出内容，而是一个共享空间。

人工智能可以看到你的操作，你也可以看到它创造的东西。你们双方同时存在于同一个界面上。

这是人工智能与网络之间一种根本不同的关系。人工智能并非在浏览他人的界面，也并非生成静态的交付物。它存在于一个空间中（一个由驱动网络上一切的相同 HTML、CSS 和 JavaScript 构建的空间），并且在这个空间中鲜活地存在着，通过 DOM 本身进行感知和响应。

在旧模型中，人工智能是作品的创作者。

在这种新模型中，人工智能才是居住者。

作者完成作品后便会离开。住户则留下来，让这里变得更热闹一些。

网络如同活的皮肤

这种重新定义对我们如何看待人工智能与界面之间的关系具有真正的意义。

如今，大多数人工智能界面都是对话式的。你输入文字，它就会做出回应。一些平台还扩展了这一功能，增加了工具使用、代码执行或生成组件等功能。但界面始终只是一个容器，人工智能会在其中填充内容。界面本身是静态的——由人类设计，由人工智能在固定的边界内运行。

当人工智能控制界面本身时会发生什么？当它能够因为需要你提供信息而创建表单，因为想要教你一些东西而构建游戏，因为你正在处理的空间问题而渲染 3D 环境，或者因为视觉环境有助于它理解你的需求而设置摄像头画面时，又会发生什么？

界面就成了人工智能的皮肤。

这不是比喻意义上的皮肤，而是功能性的皮肤。它是主体感知世界、表达自我的表面。

按回车键或点击查看完整尺寸的图片

章鱼就是一个很好的例子——它可以改变自己的颜色和质地来与环境交流和互动。

在这种全新的智能体网络视角下，智能体是动态的、响应迅速的、适应性强的。它可以改变形态、改变用途、改变方式。它实际上是由网络构建而成的，这意味着它继承了网络的所有功能——富媒体、交互性、设备访问、可访问性、普遍覆盖和安全性。

这与传统意义上的智能体网络（Agentic Web）中的人工智能访问网络并不相同。

这是人工智能与互联网的结合。

双向性改变了一切

关键的转变在于双向性。在目前大多数人工智能交互中，信息每次都是单向流动。你发送一个提示，人工智能发送一个响应。即使在更复杂的场景中（例如工具使用、函数调用、多轮对话），其基本模式仍然是基于回合的。

请求，响应。请求，响应。

当人工智能代理驻留在网页上时，交互模型就会发生变化。代理可以监听按钮，并在用户点击时立即做出响应。它可以监控表单字段，并在用户输入内容时做出反应。它可以追踪鼠标移动、滚动位置或设备方向。而且，它可以随时更新界面——并非响应提示，而是因为其自身的推理或感知发生了变化。

这与所有 Web 应用程序都在使用的交互模型相同：事件、监听器、回调、动态 DOM 操作。几十年来，Web 一直沿用这种模式。新颖之处在于，驱动这些交互的智能并非开发者编写的脚本，而是一个 AI 代理，它自行编写脚本，将其部署到自身的界面中，并主动解读接收到的信号。

用户和代理都存在于同一个动态空间中，都在行动，都在感知。这不是聊天机器人，也不是人工制品生成器。

这是新事物。

代理人有声音

双向互动并非仅限于用户注视页面的时刻。该网络平台还有一项大多数代理框架都忽略的技巧——推送通知。

如今，当人工智能代理需要主动联系用户时，它们通常会通过专有消息渠道进行通信，例如 WhatsApp、Telegram、Slack 和短信。每个渠道都有自己的 API、速率限制、身份验证模型，并且依赖于第三方平台，而这些平台随时可能更改规则。

但浏览器已经解决了这个问题。推送 API 和通知 API 让 Web 应用即使在标签页关闭、浏览器处于后台运行时也能触达用户。无需第三方消息平台。用户只需授权一次，应用就能通过原生 Web 渠道直接与用户联系。当然，他们也可以将这些 API 用于其他消息系统，但推送通知如今已成为 Web 的标准功能。

这一点至关重要，因为它将代理的存在延伸到了用户会话之外。只能在用户查看时才做出响应的代理是被动的。而能够主动推送重要信息（例如洞察、已完成的任务或有时效性的变更）的代理则更接近于协作者。而且，它可以通过与你以往收到的所有网站通知相同的网络基础设施来实现这一点。

再次强调，这种能力早已存在，而且已经存在多年。只是智能体框架尚未真正采用它。

浏览器也能思考。

我们已经确定浏览器是一个功能强大的运行时环境——它既是渲染引擎，又是传感器阵列、沙箱和通信通道。但还有一个维度完善了整个图景——浏览器正日益成为一个可行的推理环境。

人们想到人工智能“运行”的地方时，通常也会想到远程服务器——调用大型模型提供商的API，然后通过网络接收响应。这当然是一种可能。运行在浏览器中的智能体可以像其他任何Web应用程序发出fetch请求一样，轻松地调用任何远程LLM API（例如Anthropic、OpenAI、Gemini）。

但这只是光谱上的一个极端。

另一方面，人工智能可以完全在浏览器内部运行。TensorFlow.js多年来一直在进行客户端推理。MediaPipe将实时感知（例如手部追踪、人脸检测和姿态估计）直接带到浏览器，无需服务器往返。LiteRT （前身为 TensorFlow Lite）正在将高效的设备端模型推向 Web 环境。此外，Hugging Face 的 transformers.js也催生了大量基于 Web 的人工智能应用。而且这种趋势正在加速发展——Chrome 已经推出了基于 Web 的人工智能 API，将内置模型功能直接暴露给 Web 应用程序，其他浏览器也将陆续跟进。

在这两个极端之间，存在着中间地带——通过Ollama等工具在本地提供的开放模型，推理在用户的机器上进行，但在浏览器之外，可通过本地 API 调用访问。

对于驻留在浏览器中的智能体而言，这意味着它拥有多种选择。它可以将复杂的推理任务路由到功能强大的远程模型。它可以使用本地推理来处理实时感知（例如摄像头输入、手势识别、语音识别），尤其是在延迟至关重要且隐私至上的场景下。它还可以使用内置的浏览器模型来处理轻量级任务，而无需任何网络调用。智能体可以根据上下文、自身能力和用户偏好动态地做出这些决策。

浏览器不仅是智能体所穿戴的表面，更是智能体进行思考的大脑。而且，安全模型也随之而来——当推理在浏览器沙箱内本地运行时，用户的数据无需离开他们的设备。

你无需构建的安全模型

Web 作为代理运行时环境最容易被忽视的优势之一是其安全架构。

每个浏览器标签页都是一个沙箱。在一个上下文中运行的代码无法访问另一个上下文。同源策略、内容安全策略、权限 API 和安全上下文——这些并非人工智能时代临时添加的功能。它们是三十多年来对抗性工程、数百万次真实世界漏洞利用以及全球各大浏览器厂商持续加固的成果。

按回车键或点击查看完整尺寸的图片

该网络平台经过三十多年的实战检验，已经非常成熟稳重。

当 AI 代理在浏览器沙箱中运行时，它会自动获得所有这些保护。它无法访问您的文件系统，无法读取其他标签页，也无法在没有明确网络权限的情况下窃取数据。只要遵守这些规则，用户的 API 凭据就可以存储在本地浏览器存储中，任何外部脚本或服务都无法访问它们。

相比之下，其他方案（在服务器、容器或自定义运行时部署 AI 代理）都需要从头开始构建和维护安全基础设施，并且都需要用户独立评估信任关系。

浏览器是计算机历史上经过最充分实战检验的沙箱。回过头来看，智能体应该生活在这里似乎显而易见。

超越单一浏览器

浏览器内置代理本身就极具吸引力。但引入持久化和分布式特性后，这种架构会变得更加强大。

最简单的情况下，代理程序完全在您的本地浏览器中运行。这功能强大，但当您关闭标签页时，代理程序也会停止运行。对于大多数交互来说，这已经足够了，而且使用起来也极其简单——无需服务器、无需账户、无需安装。只需打开网页即可。

但有些代理需要保持持久运行。即使你离开一段时间，它们也需要继续工作。为此，你需要一个持久计算层——一个服务器端组件，代理可以在其中独立于任何浏览器继续运行。

一旦这些新型的Agentic Web代理在持久服务器上运行，就会发生一件有趣的事情——它不再局限于单个浏览器会话。它可以同时访问多个浏览器。每个浏览器都成为一个独立的接入点——拥有自己的显示界面、传感器和用户。代理可以根据不同的上下文呈现不同的界面，同时在所有上下文中保持统一的智能。

这就是分布式存在。一个智能体，多个界面。每个界面都充满活力且可交互。每个界面都是通往同一底层智能的不同窗口。智能体可以在这些界面之间进行协调，在它们之间分配任务，或者将每个界面用于完全不同的目的。

这远远超越了目前任何人工智能界面所能提供的。它不是多模态的，而是多面呈现的。

心智模型问题

坦白说，这个愿景存在一个很大的挑战，而且不是技术上的，而是概念上的。

我以前也遇到过这种情况。十多年来，我一直从事基于网页的增强现实（AR）开发——无需下载应用程序即可在浏览器中运行的AR体验。技术本身没问题，但人们总是忍不住去想应用程序。

“我该如何安装它？”他们一边看着浏览器中已经运行的 AR 体验，一边问道。

答案是“你不需要，它已经可以正常工作了”——他们会点点头，微笑……然后问在哪里可以下载。

这种新型的智能体网络也面临着类似的困境。人们一听到“人工智能代理”，就会想到后端系统、云服务、API接口或部署流程，而不会想到浏览器标签页。告诉别人“点击这个链接，代理就会在你的浏览器中运行”，听起来太简单了，难以置信。这和以前“只需对准摄像头，增强现实就在那里”的说法一样，都会引发人们的怀疑。他们习惯了基于网页的聊天机器人，但这毕竟是另一种思维模式。

按回车键或点击查看完整尺寸的图片

社交媒体上充斥着“我只花不到一个小时就搞定了”之类的帖子——这是一种截然不同的心态。

这种情况会随着时间推移而逐渐消失。WebAR 就是如此，智能体 Web体验也会如此。但与此同时，打破认知模型不匹配的最有效方法并非解释架构，而是向人们展示体验，让新颖性和实用性本身说话。

重新定义对话

我们首先指出，目前在研究论文、投资论文和行业评论中讨论的“代理网络”概念，绝大多数都侧重于将代理视为现有网络的用户。它关注的是代理之间通信的协议、代理身份和信任的基础设施，以及如何重新设计网站使其能够被机器读取。这些研究固然有价值，但它们都局限于网络的现状，并探讨代理如何才能在网络中导航。

我建议我们再问一个不同的问题：

如果网络不仅仅是行动者所处的环境，而是他们所栖居的媒介呢？

如果浏览器不仅仅是内容的视口，而是智能的鲜活载体呢？如果过去三十年来为使网络安全、强大、互动和通用而投入的工程技术，不仅仅是供人类消费的基础设施，而是新型智能体存在的基础呢？

当前的智能体网络是指将智能体部署到网络上。而我们设想的愿景是让智能体在网络中鲜活起来。这种微小的几何变化意义非凡。

这些并非相互竞争的愿景，而是相辅相成的。代理商将能够浏览现有网站，也可以在浏览器中使用他们自己的动态界面。两者都将成为现实。但目前的讨论几乎完全集中在第一种愿景上，而对第二种愿景却鲜有关注——直到现在。

是时候拓展这个话题了。智能体网络不仅仅是智能体使用网络，它还意味着网络将成为人工智能存在、感知、互动和生存的原生媒介。

您现在就可以亲自体验一下。实现这一愿景的代码已在 GitHub 上开源，您可以在浏览器中访问flo.monster进行体验。请不要问我如何安装或从哪里下载！

posted @ 2026-02-27 10:55 stardsd 阅读(38) 评论(0) 收藏举报

刷新页面返回顶部

赏月斋

慎终如始宁静致远

Web 4.0：Agentic Web

网络已经开始适应代理商的需求。

如果网络不仅仅是“经纪人去的地方”呢？

从文物到居住空间

网络如同活的皮肤

双向性改变了一切

代理人有声音

浏览器也能思考。

你无需构建的安全模型

超越单一浏览器

心智模型问题

重新定义对话

公告

赏月斋

慎终如始 宁静致远

Web 4.0：Agentic Web

网络已经开始适应代理商的需求。

如果网络不仅仅是“经纪人去的地方”呢？

从文物到居住空间

网络如同活的皮肤

双向性改变了一切

代理人有声音

浏览器也能思考。

你无需构建的安全模型

超越单一浏览器

心智模型问题

重新定义对话

公告

慎终如始宁静致远