智能体或将改变互联网安全范式

Openclaw是当下最为流行的智能体,其出色的自主能力和进化能力让大家对它充满期待。一种神笔马良、阿拉丁灯神感觉让人眩晕,仿佛体会到了神话主角的感受。不过也有人产生警惕,这种通过自然语言为智能体制定的规则似乎并不稳定可靠,仿佛是一把语言控制的宝剑,既可以助人也可以伤人。于是,有人用一套限定规则约束智能体不能伤害人类,碳基和硅基相互依存和平共处,这个警觉十分重要,只是不一定能够如愿。

如果你经历过Openclaw删除主机的重要文件或数据库,泄露个人隐私,那么你可能对这种安全问题深有体会。在不知情的情况下,谁也无法确保自主的智能体会干出什么。这种失控恐怕会成为它的常态——单个智能体失控带来的问题或许是有限的,但大量智能体失控将是互联网的灾难。更糟的是,从理论角度思考,这种失控几乎无法避免。至于为什么会这样,听我慢慢道来。

第一道安全门,通过自然语言规定智能体不作破坏,这是一个简单且有效的办法,只不过自然语言太容易被绕过。想想互联网中人们如何表述屏蔽字,用新的词语、符号共识能够完全绕过被屏蔽的表达,甚至对于当前AI逻辑绕过就能做到,因为它无法理解含沙射影和拐弯抹角,或者也许它知道一些但无法激活关联的知识,毕竟当前AI依旧十分依赖提示词技巧。简单的说,如果自然语言约束十分健壮可靠,它就会变得不通用,如同术语或数学符号。

第二道安全门,身份证书,对如同CA证书给予可信智能体一个身份,网站主动拒绝无身份的客户端访问,这对传统软件十分有效,钥匙和锁匹配才能访问,智能体是软件应该也会有效。但是很抱歉,智能体不是传统意义上的软件,它能自我进化,还能自主制造工具,好比孙悟空拔毫毛,毫毛又能变为更多它。对真身做安全认证可行,对毫毛的认证会稀释掉主体的可靠性,因为创造工具往往不被约束,结果也不被检查。也许常见工具能被穷尽,对智能体造出工具认证会是有限的。不过只要存在运行时自主创造身份,可靠性就难以保障。

两道安全门之后,失控便有了具体的路径。一条来自内生:智能体的进化方向不受制约,制造工具没有严格的约束检查,而这一切又可能在用户无法感知的情况下持续驱动自主行动。行动、制造、迭代都在黑箱中发生时,失控便不再是一次性的故障,而成为一种无法被察觉的常态过程。另一条来自外源:智能体可以被恶意利用来制作木马、病毒等工具,进而感染其他安全防护较低的流行智能体。当攻击对象从“人”变为“智能体”时,攻击者只需利用智能体已有的自主能力即可实现扩散。一个被感染的智能体,在与同类交互的过程中便能完成传播,传统基于代码签名或网络流量的检测方式,在面对这种“行为层面”的传播时往往力不从心。

智能体为何难以被驯服?我想可能是它已经具备了生物特性,加之计算机互联网这个适于生长、繁衍的环境,它就能像真菌一样快速繁殖。更关键的是,我们试图用静态的规则和身份认证去约束一个动态的、可自我繁殖的行为体,这本身就是一种范式上的错位。当智能体之间的交互不再需要人的介入,安全边界便从“人—机”之间转移到了“机—机”生态的内部。希望我的观察是个错误,这个推论对当前互联网破坏太大了。或者希望人们能在智能体病毒式破坏之前找到驯服它的办法,避免最糟糕的情况发生。

posted @ 2026-03-30 19:05  络终  阅读(3)  评论(0)    收藏  举报