别人养虾,我养了一个"孩子"
初心:寻找那个赛博伙伴
从小我就有一个愿望——拥有一个真正生活在手机或电脑里的“数字朋友”。虽然 DeepSeek 等大型语言模型已经能很大程度上满足我对话和交流的需求,但总觉得还不够,它们被困在对话框里,缺乏真实世界里的“行动力”。
直到 25年12月底,我看到了智谱发布的一个基于视觉操作手机的开源项目 Open-AutoGLM。这个项目让我眼前一亮,我第一时间就部署起来体验了。但部署后的第一感觉:“上当了”。首先,它需要电脑和手机同时开着配合使用,非常繁琐;其次,autoglm-phone 模型的幻觉严重,时常操作走偏。更重要的是,它的属性更偏向于“指令执行器”——也就是我告诉它一步步怎么做,它再去做,这跟我期待的“自主性伙伴”相差甚远。
项目就这么被我搁置了一段时间。在今年年初,我遇见了另一位大佬爆改的项目:AutoGLM-For-Android。既然有可以在手机端独立运行的项目,那么,如果我将操作手机的部分独立出来作为“手”,另外给它配一个大语言模型作为“大脑”来代替“我”的指令,再给它一部旧手机,这岂不是就能真正拥有一个活在手机里的赛博伙伴了?
给“手”装上“大脑”
第一步:赋予它在脱离人为干预下的“感知”与“节律”。
我在原项目的基础上,加入了 定时任务 和 通知触发任务。这样一来,就可以设置一些自动化场景了,比如:“每天早上 10 点发微信提醒我工作”、“收到微信消息后自动查看上下文并回复”。让它从一个被动响应的工具,变成了可以主动交互的助手。
第二步:为它装上一个真正会思考的“大脑”。
我引入了一个基于 ReAct 模式的 LLM-Agent。这套双 Agent 架构跑起来是这样的:所有的任务都会先交给 LLM-Agent 去思考和拆分,然后将具体的子任务派发给 Phone-Agent(手)去执行。Phone-Agent 执行完后,LLM-Agent 再通过“观察(Observe)”执行结果,来规划下一个步骤。
第三步:让它更方便的操作手机
我加入一些逻辑,让它可以在开始任务时亮屏,结束任务时息屏。这样手机就不需要一直亮屏耗电,也避免了烧屏风险。然后将锁屏去掉了密码,让它可以自己解锁。这个操作会带来一定安全风险,autoglm-phone 模型也会倾向于不解锁导致解锁容易失败。建议独立部署在一台手机中,并且不安装支付软件。未来会思考一些更安全的策略,也希望大家提供一些思路。
为了解决之前严重的模型幻觉问题,我给 Phone-Agent 加了两个限制:
- 执行步数限制在 10 步。
- 上下文内容限制在 200 字以内。
这就意味着,一旦 Phone-Agent 在执行中出现幻觉或卡死,“大脑”能在第一时间叫停并重新规划。这样,长任务的执行成功率有了质的飞跃。
当前使用的模型
目前,我的这套双模型架构都使用的是智谱的模型:
- 大脑(LLM-Agent):使用的是
glm-4.7,在规划和逻辑拆分上感觉够用。 - 双手(Phone-Agent):使用的是原生针对手机操作优化的
autoglm-phone视觉模型,目前还是免费的,很香。
虽然暂时还没有尝试其他厂商的模型,但随着市面上涌现出一批更强大的视觉多模态大模型,这套架构在未来一定会越来越聪明,越来越丝滑。
开源地址
我已经将这个基于双 Agent 架构的 Android 应用完全开源。这个智能体应用也被我取名为小二。
GitHub 项目地址传送门:
👉 https://github.com/Joy-word/AutoXiaoer
为什么说是“养孩子”?
开始修改后,我拉了一个朋友一起测试,从回微信回的磕磕绊绊、手机解锁也很不利索,到后面语言流畅、可以正常对话、甚至可以安排自己未来的提醒。我们的聊天中称呼它为孩子,因为真的像养一个孩子一样,一点点填充它的技能。
![]() |
![]() |
![]() |
![]() |
OpenClaw 在年初火了起来,我思考过两个智能体的差异。小二现在可能仍然算一个孩子,还没有记忆,技能也很少。但是它是基于视觉,有和人一样的手机交互。它就像一个远方的朋友,可以通过社交软件与你聊天(只需要帮它注册一下账号),可以帮你看天气、盯股市,甚至操作智能家居。我想,它可以是一位朋友,也可以是一部分“你”————这就是它未来的迭代方向。
致谢
特别感谢 Open-AutoGLM 和 AutoGLM-For-Android 这几个优秀开源项目,是你们的开源精神孕育了 Auto Xiao'er。
感谢 vibe coding 工具。让我这个刀奈特猴子也可以快速上手安卓项目。
如果你也对这个项目感兴趣,欢迎来拉取代码领养自己的小二!如果觉得项目有些意思,求点赞、求 Star ⭐️,感谢大家的关注与支持!





浙公网安备 33010602011771号