折腾三个月,我把市面上能跑的“虾”都跑了一遍,有些话不吐不快
缘起:我也没能逃过“AI焦虑”
三个月前的某个深夜,我刷到了OpenClaw的演示视频。看着那个红色的小龙虾图标在屏幕上自己移动、点击、输入,一口气完成了从打开浏览器到预订酒店的全过程,我承认——我的AI焦虑症犯了。
作为一个自认为技术嗅觉还算灵敏的全栈工程师,我竟然对这种级别的玩意儿后知后觉?第二天一早,我就开始了我的“养虾”生涯。
现在回头看,这三个月里,我把市面上能叫得上名字的claw都折腾了一遍:小米的miclaw、腾讯的QClaw和WorkBuddy、阿里的CoPaw、字节的Arkclaw、智谱的AutoClaw、月之暗面的KimiClaw、MiniMax的MaxClaw……有些跑起来了,有些跑一半就挂了,有些压根就没跑起来。
今天不说那些光鲜的官方宣传,只说我在踩坑路上看到的真实风景。

第一坑:记忆丢失——我的虾只有七秒记忆
先上AutoClaw(智谱那个本地版)。装好之后,我让它帮我每天上午10点去某个内部系统爬一份数据报表。
第一天,它干了。
第二天,它也干了。
第三天,它没干。我查日志,发现它“忘记”了这回事。
这不是个例。OpenClaw及其衍生产品,本质上是在大模型的“对话”外面套了一层“行动”的壳。但问题是,大模型本身没有持久化记忆。每次任务启动,都是一次全新的对话。你可以告诉它“记住我的习惯”,但这个“记住”只存在于当前会话的上下文窗口里。
会话一关,一切归零。
有人会说:“那用向量数据库啊,把记忆存起来。”对,理论上可以。但问题是,现有的开源方案里,记忆召回的逻辑太粗糙了。它记住的是你昨天说了什么,却分不清哪些是重要信息、哪些是随口一提。
我试过让一个claw帮我管理项目进度。一周后,它开始把A项目的deadline往B项目上套。因为它“记得”我说过“下周三截止”,但忘了是哪个项目。
一句话总结:现在的“记忆”,更像是“记录”,离真正的“记忆”还差一个“遗忘算法”的距离。

第二坑:单向沟通——我说你听,但你干没干我不知道
这是让我最崩溃的一点。
KimiClaw号称支持远程电脑操控。我在公司,让家里的电脑帮我跑一个脚本。
它回复:“好的,已开始执行。”
然后呢?没有然后了。
我不知道它到底开始了没有,不知道执行到哪里了,不知道有没有报错。我只能等回家亲自检查。
这不是真正的“智能体”,这是“指令发射器”。
WorkBuddy稍微好一点,在办公自动化场景里会主动反馈“邮件已发送”、“审批已通过”。但一旦遇到复杂流程——比如“先查一下张三上周的考勤,如果缺卡超过3次,就发邮件提醒他”——你就会发现,它只做了“查考勤”,然后等你问“发邮件了吗”,它才去执行下一步。
这哪里是助理,这是指一下动一下的木偶。
真正的智能体,应该有自己的“任务意识”:我发起一个任务,它能自己拆解步骤、自己判断条件、自己决定下一步做什么,并在关键节点主动同步进展。
但现在的claw们,更像是把“多轮对话”包装成了“多步操作”。每一步都需要你推一下。
第三坑:无反馈——闭着眼睛干活,撞墙了才知道停
这是技术上的硬伤。
OpenClaw操作外部应用,靠的是API调用或者UI自动化。API调用还好,至少能拿到明确的返回码。UI自动化就完全是盲人摸象了——它只能模拟点击,但不知道点击之后发生了什么。
我让一个claw帮我填一个表单。表单有一个字段是“手机号”,需要11位。我提供的数据里有一个手机号只有10位。
claw填了,点了提交,然后页面报错。但它不知道页面报错了,它以为提交成功了,继续执行下一步。
等我发现的时候,它已经用这个错误的数据跑了三个后续流程。
为什么?因为它没有“看”的能力。它只有“做”的能力。
字节的Arkclaw在云端版里做了一些优化,引入了截图比对,但依然只能判断“页面变了”,判断不了“变对了没有”。而且截图比对的延迟和资源消耗,在本地跑起来基本卡成PPT。
要让智能体真正“智能”,必须让它有“感知”能力——感知环境的反馈,感知操作的结果,感知异常的发生。 现在的claw们,更像是在执行预设脚本,而不是在与环境互动。

为什么问题这么多?——从“养虾”到“烤虾”的必经之路
冷静下来想想,这些问题其实都是技术发展早期的正常现象。
OpenClaw的架构,本质上是把大模型的“大脑”和自动化工具的“手脚”拼在一起。大脑负责思考,手脚负责执行。但大脑和手脚之间的“神经连接”还太原始。
-
记忆丢失,是因为大脑的“短期工作记忆”太小,又没有好的“长期记忆”存储和检索机制。
-
单向沟通,是因为手脚没有自己的“传感器”,干了活也不知道干得怎么样。
-
无反馈,是因为整个系统缺少“闭环控制”的概念——只有前向通路,没有反馈回路。
这些在自动化控制理论里都是基础问题,但放到AI智能体这个新瓶子里,又有了新的复杂度。
哪些坑已经被填了,哪些还在
三个月折腾下来,我也摸清了各家产品的真实进展:
-
记忆问题:KimiClaw和MaxClaw在云端做了长期记忆的尝试,但召回准确率还有待验证。本地跑的AutoClaw,基本别指望。
-
多步任务:腾讯的WorkBuddy在企业场景里做得不错,因为业务流程相对固定,可以预定义状态机。但开放场景下,还没见到能稳定跑通复杂任务的。
-
环境感知:Arkclaw的云端截图分析是个方向,但成本和延迟问题没解决。小米的miclaw在手机端做得最好,因为系统级权限可以拿到更细粒度的状态信息。
至于那些小厂和个人开发者fork出来的“虾”,基本还在“能跑起来就算赢”的阶段。问题不是有没有,而是多和少。
未来三个月,我会关注什么
作为一个务实派全栈,我对天花乱坠的演示已经免疫了。未来几个月,我会重点关注这几个方向的技术突破:
-
记忆的分层存储:短期记忆(当前任务)、中期记忆(本次会话)、长期记忆(跨会话),如何分层存储、如何按需召回。
-
任务状态管理:让智能体有“任务意识”,而不是被动响应。这需要更好的任务拆解和状态追踪机制。
-
多模态反馈:让智能体能“看”屏幕、“听”声音、“读”日志,真正理解操作的反馈。
-
安全沙箱:权限控制不是越强越好,而是越精细越好。哪些操作可以自动执行,哪些需要人工确认,应该可配置。
写在最后:焦虑依然在,但方向更清晰了
三个月前,我因为焦虑入坑。三个月后,焦虑没消失,但方向清晰了。
OpenClaw这波热潮,确实带来了很多不成熟的产品,也暴露了很多问题。但反过来想,正是这些问题,指明了下一步该往哪儿走。
我的“养虾”还在继续,只是心态变了——不再是怕错过什么,而是想看看到底谁能先跑通这些技术难点。
毕竟,能把“虾”养大养好的,才是真正能在这个赛道站住的。
后记:这篇文章是我在连续三天debug一个claw的记忆问题无果后,趁着脑子还清醒写的。如果你也在养虾,或者正准备入坑,欢迎留言交流。踩过的坑,填上的坑,都值得聊一聊。
浙公网安备 33010602011771号