Codex 更新 Windows 版 Computer Use:AI 编程 Agent 正式接管你的桌面

发布日期:2026-06-01 | 数据来源:OpenAI 官方文档 / The Verge / Neowin | 话题:Codex Windows Computer Use


2026 年 5 月 29 日,OpenAI 发布 Codex app v26.527,正式将 Computer Use 功能带到 Windows 平台。这意味着 Codex 不再只是一个提建议的代码助手——它现在能看见你的屏幕,移动鼠标,点击按钮,在任意 Windows 应用里自主工作。

Codex-Windows-Computer-Use-img1


Codex Windows Computer Use 是什么?

Codex Windows Computer Use 是让 AI 编程 Agent 直接操控 Windows 桌面图形界面的能力。

与传统 AI 编程助手只能修改代码文件、运行终端命令不同,Computer Use 让 Codex 能够:

  • 看见屏幕:实时截图,理解当前界面状态
  • 操控鼠标:点击按钮、菜单、对话框
  • 模拟键盘:在任意输入框中打字
  • 跨应用工作:浏览器、IDE、企业软件、遗留系统,只要屏幕上能显示,就能操控

核心价值在于打破了"必须有 API 才能自动化"的限制。对于那些没有 CLI 接口、没有 REST API、只有 GUI 的软件,Codex 现在可以像人一样用它。


三大新功能详解

功能一:Windows Computer Use

发布日期:2026 年 5 月 29 日(Mac 版早于 2026 年 4 月)

启用方式:打开 Codex 设置 → Computer Use → 点击 Install 安装插件。

启用后,在对话中用 @computer 或指定应用名(如 @Paint@VisualStudio)触发 Codex 接管对应应用。

Windows 与 Mac 的关键区别:

特性 Windows macOS
运行模式 前台运行,接管鼠标键盘 支持后台/锁屏运行
任务期间能否继续用电脑 否,需等待或用其他设备 可以锁屏后继续运行
权限设置 目标应用保持前台可见 需授予屏幕录制和辅助功能权限
安全沙箱 PowerShell Sandbox / WSL2 macOS 沙箱

Windows 前台限制的应对方案:

  1. 使用手机 App 远程监控,让 PC 专心运行任务
  2. 在 Windows 虚拟机内运行 Codex,Computer Use 接管 VM 而非主桌面
  3. 使用远程桌面或云 PC,任务在远端机器上运行

安全边界(官方文档明确):

  • 不能在终端或 Codex 自身内运行(防止绕过安全策略)
  • 不能以管理员身份执行操作或通过安全权限弹窗
  • 文件编辑和 Shell 命令仍遵循 Codex 沙箱设置
  • 操作账户、安全、支付、凭证相关设置时会暂停并询问用户确认

功能二:手机远程控制 Windows(同步发布)

此前 ChatGPT 手机 App 已可远程控制 Mac 上的 Codex(5 月 14 日上线),本次更新将该能力扩展到 Windows。

手机端能做的事:

  • 发起新的 Codex 任务线程
  • 查看任务进度和截图
  • 审阅代码 Diff,一键批准或拒绝
  • 发送后续指令
  • 在 Windows 机器上继续已有的工作

典型使用场景:启动一个 Windows GUI 测试任务后,离开办公桌,用手机监控进度和处理需要确认的操作——PC 全程专注跑任务,手机作为指挥台。

据 OpenAI 于 5 月 14 日发布的数据,Codex 每周活跃用户已超过 400 万。


功能三:Codex Profiles(用量统计)

v26.527 同步上线了 Codex 应用内的 Profile 面板,展示:

  • 生命周期 Token 用量统计
  • 使用活跃度可视化

部分早期用户报告个人累计 Token 处理量已达百亿级别,其中最高记录为 649 亿 Token。


典型使用场景

Codex-Windows-Computer-Use-img2

1. Windows 应用 UI 测试

让 Codex 启动本地开发服务器,走一遍注册、支付、Dashboard 的完整流程,自动截图并对发现的 Bug 创建 GitHub Issue。浏览器不限于 Chromium,Edge、Brave、Firefox 均可,因为 Codex 在像素层面操作,不依赖 DevTools。

2. 复现只在 GUI 中出现的 Bug

某些 Bug 在代码层看不出来,只在特定 UI 交互序列后才触发。Codex 可以按步骤操作,精确复现问题路径,并录制截图序列辅助调试。

3. 操作无 API 的遗留软件

企业内部老系统、ERP、桌面版报表工具——只要能在屏幕上显示,Codex 就能代替人工完成数据录入、配置修改、报告导出等重复操作。

4. 跨应用多步工作流

在 Visual Studio 里跑单元测试 → 把失败的测试结果复制到 Markdown 文档 → 在浏览器中打开对应 Issue 填写描述。这类跨应用的多步任务,原本需要人工完成,现在可以委托给 Codex。


与同类产品对比

Agent Windows 桌面控制 原生 CLI 手机远程 云端版本
OpenAI Codex v26.527 ✅ Computer Use(前台,2026/5/29) ✅ PowerShell + OS 沙箱 ✅ iOS/Android ✅ Codex 云任务
Anthropic Claude Computer Use ✅ 通过 API 和合作平台 ✅ Claude Code CLI ✗ 无官方手机控制 ✅ 自托管沙箱
Cursor 3.6 间接(MCP 工具层,非像素级) ✅ Windows 原生 有限 ✅ Cloud Agents
Google Antigravity 2.0 仅限浏览器范围 IDE 仅限 有限

横向结论:在"让 AI 直接操控 Windows 桌面"这一维度上,Codex v26.527 目前是覆盖最广的第一方方案。Anthropic Claude Computer Use 起步更早,但主要通过 API 接入,缺少一体化的手机远程控制体验。

开发者可以通过兼容 OpenAI/Anthropic 双接口的 API 平台调用 Claude Computer Use 能力,在国内网络环境下构建自己的 Computer Use 工作流(参考:七牛云大模型广场)。


配置与安装

系统要求:

  • Windows 11(官方推荐)
  • ChatGPT Plus / Pro / Enterprise 订阅
  • 从 Microsoft Store 安装 Codex app

命令行安装(PowerShell):

winget install OpenAI.Codex

启用 Computer Use:

1. 打开 Codex 设置
2. 进入 Computer Use 标签页
3. 点击 Install 安装桌面交互插件
4. 在对话中使用 @computer 或 @应用名 触发

WSL2 模式切换(更安全的 Linux 沙箱):

Codex 设置 → Terminal → 切换为 WSL2 模式

WSL2 模式下,Codex 的 Shell 命令运行在 Linux 容器内,文件系统隔离更彻底,适合对安全要求更高的场景。


地区与订阅限制

条件 说明
地区 macOS 和 Windows 均支持,EEA、英国、瑞士暂不可用
订阅 ChatGPT Plus($20/月)、Pro($200/月)、Enterprise
Plus 超量 可购买附加用量(2026 年 5 月 31 日前)
后台运行 Mac 已支持锁屏后台;Windows 暂不确认

常见问题

Q:Codex Windows Computer Use 和 RPA 工具(如 UiPath、Automation Anywhere)有什么区别?
传统 RPA 依赖预设的 UI 元素选择器和固定脚本,脆弱且维护成本高;界面一变脚本就失效。Codex Computer Use 基于视觉理解,每次截图后重新判断当前状态,对 UI 变化有一定容错能力,更接近人类操作者的思维方式。但目前 Codex 适合开发者场景的任务,不是工业级 RPA 的替代品。

Q:Windows 前台限制怎么解决?
三个方案:① 用手机 App 远程监控,PC 专心跑任务;② 在 Windows VM 里运行 Codex,Computer Use 接管 VM 桌面;③ 用远程桌面连接一台专用 PC 或云机器来运行任务。

Q:Computer Use 会访问我的私人文件和密码吗?
Codex 在操作时会显示请求权限的应用列表,用户可以选择"始终允许"或逐次确认。涉及账户、支付、凭证的操作,Codex 会主动暂停并询问。官方明确表示 Codex 不能以管理员身份执行操作,不能通过系统安全弹窗。

Q:在中国能用 Codex Windows Computer Use 吗?
Codex app 需要 ChatGPT 账号(Plus 及以上)且需要稳定的国际网络连接。Computer Use 本身不在 EEA/英国/瑞士限制名单内,但国内用户需要自行解决网络访问问题。


总结

Codex v26.527 的 Windows Computer Use 更新标志着 AI 编程 Agent 从"代码建议工具"向"自主工作站"演进的关键节点。对开发者而言,这意味着 GUI 测试、遗留软件操作、跨应用工作流等此前难以自动化的任务,现在有了第一方支持。

据 OpenAI 官方文档和多家科技媒体(The Verge、Neowin、Thurrott.com)2026 年 5 月 29 日的报道,Windows 版与 Mac 版的主要差异仍在于运行模式——前台 vs 后台——后续版本是否会补齐,值得持续关注。本文数据基于 2026 年 6 月 1 日公开信息,建议参考 OpenAI 官方文档获取最新状态。


延伸资源

posted @ 2026-06-01 12:06  七牛云行业应用  阅读(2126)  评论(0)    收藏  举报