UI-TARS Desktop:字节开源的多模态 GUI Agent,让 AI 操控你的电脑

项目简介

UI-TARS Desktop 是字节跳动开源的多模态 AI Agent 套件,包含 Agent TARS(终端/浏览器 Agent)和 UI-TARS Desktop(桌面 GUI Agent)两大组件。它能用自然语言控制你的电脑——看截图、点按钮、填表单、执行命令,就像真人在操作一样。

底层基于 UI-TARSSeed-1.5-VL/1.6 视觉语言模型,实现从"看懂屏幕"到"动手操作"的完整闭环。

Stars
31,571 ⭐
Forks
3,137
创建
2025-01-19
语言
TypeScript
协议
Apache 2.0

两大核心组件

这个仓库实际上包含两个独立但互补的项目:

组件定位入口
Agent TARS终端里的多模态 AI Agent,操控浏览器、电脑和各种 MCP 工具CLI + Web UI
UI-TARS Desktop原生桌面 GUI Agent,直接控制你的本地电脑和浏览器桌面应用

Agent TARS

Agent TARS 是一个通用的多模态 AI Agent 栈,把 GUI Agent 和视觉能力带入你的终端、电脑、浏览器和产品中。

它主要通过 CLIWeb UI 两种方式使用,目标是结合前沿的多模态 LLM 和 MCP 工具集成,实现更接近人类操作的工作流程。

典型能力

  • 在 Priceline 上预订机票("帮我订 9 月 1 号从圣何塞到纽约的最早航班")
  • 在 Booking.com 上订酒店并生成交通指南
  • 调用 MCP Server 生成图表
  • 混合浏览器 Agent:支持 GUI Agent(视觉定位)、DOM 或混合策略控制浏览器

UI-TARS Desktop

UI-TARS Desktop 是一个原生桌面应用,基于 UI-TARS 模型提供本地 GUI Agent 能力。

两种 Operator

Operator功能场景
Local Operator在本地电脑上执行操作修改系统设置、控制本地应用
Remote Operator远程控制电脑或浏览器远程办公、自动化测试

使用示例

  • "帮我在 VS Code 设置里打开自动保存,延迟设置为 500 毫秒"
  • "帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的 open issue"

核心功能

🖥️
Computer Use
截图识别 + 鼠标键盘精准控制,AI 像真人一样操作你的电脑
🌐
Browser Use
浏览器自动化——GUI 视觉定位、DOM 操作或混合策略
🧠
VLM 驱动
基于 UI-TARS / Seed-1.5-VL/1.6 视觉语言模型,自然语言即可控制
🔌
MCP 集成
内核基于 MCP 构建,支持挂载 MCP Server 连接真实世界工具
🔄
Event Stream
协议驱动的事件流,驱动上下文工程和 Agent UI,支持数据流追踪
💻
跨平台
支持 Windows / macOS / Linux,本地处理,隐私安全
📡
Remote Operator
远程电脑和远程浏览器 Operator,无需配置即可使用
🧰
UI-TARS SDK
跨平台工具包,用于构建 GUI 自动化 Agent

技术架构

UI-TARS Desktop ├── Agent TARS (多模态 AI Agent 栈) │ ├── CLI (headless 执行) │ ├── Web UI (可视化交互) │ ├── 混合浏览器 Agent (GUI + DOM) │ ├── MCP Server 集成 │ └── Event Stream (协议驱动) └── UI-TARS Desktop (原生桌面应用) ├── Local Operator (本地控制) ├── Remote Computer Operator (远程控制) ├── Remote Browser Operator (远程浏览器) ├── UI-TARS SDK └── UI-TARS / Seed-1.5-VL 模型

安装方式

Agent TARS CLI(推荐)

# npx 直接运行 npx @agent-tars/cli@latest # 全局安装(需要 Node.js >= 22) npm install @agent-tars/cli@latest -g # 指定模型提供商 agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key

UI-TARS Desktop 应用

访问 GitHub Releases 下载桌面应用,支持 Windows / macOS。

本地模型 Operator

参考 官方文档 部署本地模型并连接。

快速开始

30 秒体验 Agent TARS

# 一行命令启动(需要 Node.js >= 22) npx @agent-tars/cli@latest # 或者全局安装后用 npm install @agent-tars/cli@latest -g agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

使用 UI-TARS Desktop

  • 下载桌面应用并安装
  • 配置本地或远程模型(支持 UI-TARS、Seed-1.5-VL 等)
  • 用自然语言描述你要执行的操作
  • AI 自动截图、识别界面元素、执行点击和输入

实战场景

🛫 场景一:自动订机票酒店

# 让 Agent TARS 在 Priceline 上订机票 agent-tars --provider anthropic --model claude-3-7-sonnet-latest # 然后输入: # "帮我订 9 月 1 号从圣何塞到纽约的最早航班,9 月 6 号最后返程"

Agent 会自动打开浏览器、搜索航班、比较价格、完成预订。同样可以在 Booking.com 上订酒店。

🔧 场景二:修改系统设置

对 UI-TARS Desktop 说:

"帮我在 VS Code 设置里打开自动保存,延迟设置为 500 毫秒"

AI 会截图 VS Code 界面,识别设置入口,找到 Auto Save 选项并修改。

🌐 场景三:浏览器自动化

"帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的 open issue"

Agent 用混合策略(GUI 视觉定位 + DOM)打开浏览器、导航到 GitHub、读取 issue 列表并汇总。

📊 场景四:生成图表

"帮我画一个杭州一个月的天气图表"

通过 MCP Server 调用数据源,Agent 自动生成可视化图表。

🖥️ 场景五:远程控制电脑

通过 Remote Computer Operator,无需物理接触即可操作远程电脑——适合远程办公、IT 运维等场景。

总结

UI-TARS Desktop 把"AI 操控电脑"从概念变成了可用的产品——看截图、认界面、点按钮、填表单,全程自然语言驱动。

31,571 Stars — 字节跳动开源,社区活跃
Computer Use — 截图识别 + 鼠标键盘精准控制
Browser Use — GUI 视觉定位 + DOM 混合策略
VLM 驱动 — UI-TARS / Seed-1.5-VL 视觉语言模型
MCP 集成 — 连接真实世界工具链
Event Stream — 协议驱动,数据流可追踪
Remote Operator — 远程电脑和浏览器控制
跨平台 — Windows / macOS / Linux
Apache 2.0 — 商业友好

如果你需要 AI 帮你操作电脑、自动化浏览器、或者构建 GUI 自动化流程,UI-TARS Desktop 是目前开源生态中最完整的方案之一。

posted @ 2026-05-10 13:56  ciaochao  阅读(476)  评论(0)    收藏  举报