当 AI 不再满足于“动口”而开始“动手”,移动端 GUI Agent 成为了连接大模型与现实世界的桥梁。GELab-Zero 正是这样一个开源项目,它让 AI 能像人类一样“看”懂手机屏幕并执行操作。本文将深入剖析其技术架构、核心亮点与工程实践。
项目概览:什么是 GELab-Zero?
GELab-Zero 由阶跃星辰 StepFun GELab 团队开源,是一套面向 Android 手机的 Phone Use Agent 框架。它并非单纯的模型权重,而是将“视觉理解”到“动作执行”的完整链路打包开源,包含两个核心部分:
- GELab-Zero-4B-preview:一个可在本地消费级硬件上运行的 4B 参数多模态模型。
- Plug-and-Play 推理基础设施:负责处理 ADB 连接、设备管理、任务分发、轨迹记录与回放等工程难题。
开发者只需输入自然语言任务(如“在淘宝找一双白色帆布鞋”),系统便会自动获取截图、模型决策、通过 ADB 执行点击或滑动,并记录每一步轨迹供复盘。官方将其定位为类似 开源 GUI Agent MCP 的一键启动体验,完全本地部署,兼顾隐私与低延迟。

GitHub 仓库:https://github.com/stepfun-ai/gelab-zero
技术挑战:移动端 GUI Agent 为何难做?
让 AI 操作手机远非“截图 + 点击”那么简单。真实移动环境充满不确定性,开发者需攻克以下难点:
- 生态碎片化:不同品牌、系统版本及屏幕尺寸导致界面布局千差万别,App 一次改版就可能让稳定流程失效。
- 长链路任务:购物、打车等任务包含搜索、筛选、确认、等待加载等多步操作,Agent 需根据实时屏幕反馈动态调整策略。
- 状态不可控:广告弹窗、网络卡顿、登录态失效等并非异常,而是常态。Agent 必须具备鲁棒性。
- 工程基础设施重:多设备 ADB 连接、权限配置、推理服务部署等环节缺一不可。GELab-Zero 的价值在于将这些“脏活”封装成统一管道,显著降低研究门槛。
✅ 核心亮点:为什么 GELab-Zero 值得学习?
相比许多仅开放模型或 Demo 的项目,GELab-Zero 在工程落地层面提供了更完整的参考。以下是几个值得关注的设计:
- 模型与基础设施全开源:仓库包含客户端、服务端、前端、MCP Server 等模块。对于想研究 GUI Agent 的开发者来说,它不仅是模型展示,更是一个完整的工程化案例。
- 本地运行,隐私优先:4B 模型可在本地消费级 GPU 上运行,所有截图和任务数据无需上传云端。这在处理聊天记录、支付页面等敏感信息时至关重要。
- 纯视觉理解屏幕:模型直接从截图出发,通过视觉信息理解界面并输出动作。这更接近人类操作方式,无需依赖 HTML 或 App 内部 API,适配性更强。
- 轨迹记录与回放:每次任务生成唯一 session ID,记录每一步截图、动作与模型输出。通过 Streamlit 可视化界面,开发者可以精确回放任务失败点,判断是“模型误读”还是“等待不足”。
- 支持 MCP Server 与多设备管理:项目已支持 MCP 协议,可统一调度多台 Android 手机进行任务分发、执行与复盘。这标志着项目正从单机 Demo 走向工程化集群管理。
实战演示:从任务看 Agent 能力边界
官方演示展示了 GELab-Zero 在真实 App 中的操作能力,这里选取两个典型场景:
- 多商品购物:Agent 需在外卖/零售 App 中购买多种不同规格商品。它需要完成搜索、识别商品、加入购物车、调整数量等长链路操作,每一步都依赖屏幕实时状态。
- 条件搜索:根据颜色、尺码、价格等约束筛选商品并收藏。这更像真实用户的模糊需求,Agent 不仅需要理解约束,还需在结果页面持续判断哪些信息与目标相关。
这两个示例说明,移动端 GUI Agent 的核心并非简单的动作执行,而是将“任务目标、视觉观察、历史上下文、下一步动作”串成一个连续的决策闭环。
AndroidDaily:贴近日常生活的基准测试
GELab-Zero 配套推出了 AndroidDaily 评测集,覆盖外卖、打车、购物、社交通讯等高频生活场景,而非传统的邮件、文档等生产力场景。其包含:
- 静态测试:3146 个动作,要求模型根据任务描述和逐步截图预测每一步动作。
- 端到端测试:235 个任务,在真机或模拟器中从头到尾执行,以整体成功率评估。

官方数据显示,GELab-Zero-4B-preview 在静态测试中的准确率为 GELab-Zero-4B-preview(0.734),远超 GPT-4o(0.196)和 Gemini-2.5-pro-thinking(0.366)。
| 模型 | AndroidDaily 静态测试准确率 |
|---|---|
| GPT-4o | 0.196 |
| Gemini-2.5-pro-thinking | 0.366 |
| UI-TARS-1.5 | 0.470 |
| GELab-Zero-4B-preview | 0.734 |

在 AndroidWorld 测试中,GELab-Zero-4B-preview 达到了 75.86% 的成功率。这证明其价值不仅在于静态截图理解,更在于真实移动任务的端到端执行能力。
⚙️ 快速上手:5 步跑通最小闭环
如果你是 Python 或 Go 开发者,想快速体验 GELab-Zero,可按以下步骤操作:
- 准备 Python 环境(建议 3.12+):
conda create -n gelab-zero python=3.12 -y
conda activate gelab-zero
- 准备模型推理服务(推荐 Ollama):
pip install huggingface_hub
hf download --no-force-download stepfun-ai/GELab-Zero-4B-preview --local-dir gelab-zero-4b-preview
导入模型:
cd gelab-zero-4b-preview
ollama create gelab-zero-4b-preview -f Modelfile
- 准备 Android 设备:开启开发者模式与 USB 调试,确保 ADB 连接成功:
adb devices
若设备状态显示为 device 则连接正常。
- 克隆项目并运行示例:
git clone https://github.com/stepfun-ai/gelab-zero
cd gelab-zero
pip install -r requirements.txt
python examples/run_single_task_state_compress.py
- 启动轨迹可视化(可选):
streamlit run --server.address 127.0.0.1 visualization/pages/main_page.py --server.port 33503
浏览器访问:
http://localhost:33503
⚠️ 注意:若硬件有限,可尝试量化版本,但可能影响模型判断质量。
[AFFILIATE_SLOT_2]谁应该关注这个项目?
- GUI Agent / 多模态 Agent 研究者:项目提供了从模型、任务到 Benchmark 的完整研究闭环。
- 移动端自动化开发者:相比传统脚本,GUI Agent 能处理动态界面和模糊目标,是自动化方案的有力补充。
- 关注本地隐私的团队:本地模型与执行链路可提供更强的数据控制能力。
- 想学习工程化架构的开发者:项目包含设备管理、任务执行、MCP Server 等模块,是优秀的开源案例。
⚠️ 需要注意的限制
- 当前主要支持 Android,需要 ADB 和 USB 调试环境。
- 真实 App 的弹窗、登录态、网络波动会影响执行稳定性。
- 涉及支付、下单等敏感任务,建议先在测试账号中运行。
- 量化能降低部署成本,但可能影响模型判断准确性。
- GUI Agent 是连续决策系统,一步误判可能影响后续整条轨迹,因此日志和回放功能至关重要。
总结
GELab-Zero 的开源价值,在于它补上了从“看懂屏幕”到“操作真机”之间的工程链路。对于开发者而言,它提供了一个从模型理解、设备控制到任务评估的完整参考。移动端 GUI Agent 的真正挑战不是做出漂亮 Demo,而是让系统能连接真机、执行真实任务、记录全过程、失败可回放、策略可迭代。如果你正在关注 AI 操作手机的真实落地方式,这个项目值得深入学习。
浙公网安备 33010602011771号