UI-TARS Desktop：字节开源的多模态 GUI Agent，让 AI 操控你的电脑

🔗 我的中转站：https://api.aiseo.one/register?channel=c_0qyhisw6

项目简介

UI-TARS Desktop 是字节跳动开源的多模态 AI Agent 套件，包含 Agent TARS（终端/浏览器 Agent）和 UI-TARS Desktop（桌面 GUI Agent）两大组件。它能用自然语言控制你的电脑——看截图、点按钮、填表单、执行命令，就像真人在操作一样。

底层基于 UI-TARS 和 Seed-1.5-VL/1.6 视觉语言模型，实现从"看懂屏幕"到"动手操作"的完整闭环。

GitHub

https://github.com/bytedance/UI-TARS-desktop

Stars

31,571 ⭐

Forks

3,137

创建

2025-01-19

语言

TypeScript

协议

Apache 2.0

两大核心组件

这个仓库实际上包含两个独立但互补的项目：

组件	定位	入口
Agent TARS	终端里的多模态 AI Agent，操控浏览器、电脑和各种 MCP 工具	CLI + Web UI
UI-TARS Desktop	原生桌面 GUI Agent，直接控制你的本地电脑和浏览器	桌面应用

Agent TARS

Agent TARS 是一个通用的多模态 AI Agent 栈，把 GUI Agent 和视觉能力带入你的终端、电脑、浏览器和产品中。

它主要通过 CLI 和 Web UI 两种方式使用，目标是结合前沿的多模态 LLM 和 MCP 工具集成，实现更接近人类操作的工作流程。

典型能力

在 Priceline 上预订机票（"帮我订 9 月 1 号从圣何塞到纽约的最早航班"）
在 Booking.com 上订酒店并生成交通指南
调用 MCP Server 生成图表
混合浏览器 Agent：支持 GUI Agent（视觉定位）、DOM 或混合策略控制浏览器

UI-TARS Desktop

UI-TARS Desktop 是一个原生桌面应用，基于 UI-TARS 模型提供本地 GUI Agent 能力。

两种 Operator

Operator	功能	场景
Local Operator	在本地电脑上执行操作	修改系统设置、控制本地应用
Remote Operator	远程控制电脑或浏览器	远程办公、自动化测试

使用示例

"帮我在 VS Code 设置里打开自动保存，延迟设置为 500 毫秒"
"帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的 open issue"

核心功能

🖥️

Computer Use

截图识别 + 鼠标键盘精准控制，AI 像真人一样操作你的电脑

🌐

Browser Use

浏览器自动化——GUI 视觉定位、DOM 操作或混合策略

🧠

VLM 驱动

基于 UI-TARS / Seed-1.5-VL/1.6 视觉语言模型，自然语言即可控制

🔌

MCP 集成

内核基于 MCP 构建，支持挂载 MCP Server 连接真实世界工具

🔄

Event Stream

协议驱动的事件流，驱动上下文工程和 Agent UI，支持数据流追踪

💻

跨平台

支持 Windows / macOS / Linux，本地处理，隐私安全

📡

Remote Operator

远程电脑和远程浏览器 Operator，无需配置即可使用

🧰

UI-TARS SDK

跨平台工具包，用于构建 GUI 自动化 Agent

技术架构

UI-TARS Desktop
├── Agent TARS (多模态 AI Agent 栈)
│   ├── CLI (headless 执行)
│   ├── Web UI (可视化交互)
│   ├── 混合浏览器 Agent (GUI + DOM)
│   ├── MCP Server 集成
│   └── Event Stream (协议驱动)
└── UI-TARS Desktop (原生桌面应用)
    ├── Local Operator (本地控制)
    ├── Remote Computer Operator (远程控制)
    ├── Remote Browser Operator (远程浏览器)
    ├── UI-TARS SDK
    └── UI-TARS / Seed-1.5-VL 模型

安装方式

Agent TARS CLI（推荐）

# npx 直接运行
npx @agent-tars/cli@latest

# 全局安装（需要 Node.js >= 22）
npm install @agent-tars/cli@latest -g

# 指定模型提供商
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key

UI-TARS Desktop 应用

访问 GitHub Releases 下载桌面应用，支持 Windows / macOS。

本地模型 Operator

参考官方文档部署本地模型并连接。

快速开始

30 秒体验 Agent TARS

# 一行命令启动（需要 Node.js >= 22）
npx @agent-tars/cli@latest

# 或者全局安装后用
npm install @agent-tars/cli@latest -g
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

使用 UI-TARS Desktop

下载桌面应用并安装
配置本地或远程模型（支持 UI-TARS、Seed-1.5-VL 等）
用自然语言描述你要执行的操作
AI 自动截图、识别界面元素、执行点击和输入

实战场景

🛫 场景一：自动订机票酒店

# 让 Agent TARS 在 Priceline 上订机票
agent-tars --provider anthropic --model claude-3-7-sonnet-latest

# 然后输入：
# "帮我订 9 月 1 号从圣何塞到纽约的最早航班，9 月 6 号最后返程"

Agent 会自动打开浏览器、搜索航班、比较价格、完成预订。同样可以在 Booking.com 上订酒店。

🔧 场景二：修改系统设置

对 UI-TARS Desktop 说：

"帮我在 VS Code 设置里打开自动保存，延迟设置为 500 毫秒"

AI 会截图 VS Code 界面，识别设置入口，找到 Auto Save 选项并修改。

🌐 场景三：浏览器自动化

"帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的 open issue"

Agent 用混合策略（GUI 视觉定位 + DOM）打开浏览器、导航到 GitHub、读取 issue 列表并汇总。

📊 场景四：生成图表

"帮我画一个杭州一个月的天气图表"

通过 MCP Server 调用数据源，Agent 自动生成可视化图表。

🖥️ 场景五：远程控制电脑

通过 Remote Computer Operator，无需物理接触即可操作远程电脑——适合远程办公、IT 运维等场景。

总结

UI-TARS Desktop 把"AI 操控电脑"从概念变成了可用的产品——看截图、认界面、点按钮、填表单，全程自然语言驱动。

✅ 31,571 Stars — 字节跳动开源，社区活跃

✅ Computer Use — 截图识别 + 鼠标键盘精准控制

✅ Browser Use — GUI 视觉定位 + DOM 混合策略

✅ VLM 驱动 — UI-TARS / Seed-1.5-VL 视觉语言模型

✅ MCP 集成 — 连接真实世界工具链

✅ Event Stream — 协议驱动，数据流可追踪

✅ Remote Operator — 远程电脑和浏览器控制

✅ 跨平台 — Windows / macOS / Linux

✅ Apache 2.0 — 商业友好

如果你需要 AI 帮你操作电脑、自动化浏览器、或者构建 GUI 自动化流程，UI-TARS Desktop 是目前开源生态中最完整的方案之一。

🚀 GitHub：https://github.com/bytedance/UI-TARS-desktop

📚 文档：https://agent-tars.com