browser-use vs browser-harness vs agent-browser：AI Agent 浏览器自动化工具终极选型指南

2026 年，AI Agent 要真正有用，必须能上网。不是调用 API 那种"上网"，而是打开浏览器、点击按钮、填写表单、读取内容——像人一样操作网页。

目前做这件事的开源工具，最火的有三个：browser-use（94k stars）、agent-browser（33k stars）、browser-harness（12.6k stars）。Stars 差了快 10 倍，但选型不能只看 stars。

我把三个项目都实际跑了一遍，翻了源码和文档。这篇文章是我的选型结论。

本文提纲

三者定位完全不同
架构对比：谁的设计更聪明
性能对比：资源占用和速度
功能对比：谁做的事最多
LLM 支持对比
安全和反检测
部署和可扩展性
上手难度
实际使用体验
选型结论

三者定位完全不同

先搞清楚一个关键事实：它们不是同一类东西。

browser-use — Agent 框架

from browser_use import Agent
agent = Agent(task="帮我买一张去东京的机票", llm=ChatOpenAI())
await agent.run()

browser-use 是一个完整的 Agent 框架。你给它一个任务，它自己规划、自己操作浏览器、自己完成。你不需要告诉它"先打开这个 URL，再点这个按钮"——它自己会想。

背后是 Playwright 驱动 Chromium，LLM 看到页面截图后决定下一步操作。

browser-harness — Agent 的工具

browser-harness <<'PY'
new_tab("https://example.com")
capture_screenshot()
click_at_xy(420, 310)
PY

browser-harness 是一个给 Agent 用的浏览器工具。它自己不带 LLM，不能自主决策。它被设计成 Claude Code、Codex 这类编码 Agent 的"双手"——Agent 做大脑，browser-harness 做执行。

核心只有 ~1000 行代码，直接通过 CDP（Chrome DevTools Protocol）连接你正在运行的 Chrome。

agent-browser — Agent 的 CLI

agent-browser open example.com
agent-browser snapshot
agent-browser click @e2
agent-browser screenshot page.png

agent-browser 是一个给 Agent 用的 CLI 工具。和 browser-harness 类似，它也不带 Agent 循环，但功能要全面得多——100+ 命令、Rust 原生、7MB 安装包。

MERMAID_BLOCK_0

架构对比：谁的设计更聪明

browser-use

用户任务 → Agent Loop → LLM (看截图+DOM) → 输出动作 → Playwright 执行 → 循环

浏览器引擎：Playwright + Chromium
元素识别：DOM 索引（给每个可交互元素编号）
Agent 循环：内置（Agent.run()）
语言：Python（97.9%）

browser-harness

Chrome ← CDP WebSocket → Daemon ← IPC → CLI

浏览器引擎：你的真实 Chrome（通过 CDP 直连）
元素识别：像素坐标（截图 → 看像素 → 点击坐标）
Agent 循环：无（依赖外部 Agent）
语言：Python，~1000 行
亮点：Agent 可以修改自己的 helper 代码（自我进化）

agent-browser

Chrome ← CDP → Rust Daemon ← CLI / MCP

浏览器引擎：Chrome CDP + Lightpanda + Safari WebDriver
元素识别：Accessibility Tree + @eN 引用（最稳定的方式）
Agent 循环：无（CLI 工具），但内置 AI Chat 模式
语言：Rust（v0.20 完全重写）
亮点：无障碍树快照，确定性元素引用

架构对比表

维度	browser-use	browser-harness	agent-browser
浏览器引擎	Playwright	真实 Chrome (CDP)	Chrome CDP / Rust
元素定位	DOM 索引	像素坐标	无障碍树 @eN
Agent 循环	✅ 内置	❌ 无	❌ 无（有 AI Chat）
代码量	大（完整框架）	~1000 行	中等（100+ 命令）
语言	Python	Python	Rust
浏览器依赖	自带 Chromium	用你的 Chrome	自带 + 可连已有

性能对比：资源占用和速度

安装体积

工具	安装大小	依赖
browser-use	~200MB+	Python + Playwright + Chromium
browser-harness	~10MB	Python + websockets
agent-browser	7MB	无（纯 Rust 二进制）

运行时内存

工具	Daemon 内存	说明
browser-use	~200MB+	Playwright + Chromium 进程
browser-harness	~30MB	只是一个 CDP 桥
agent-browser	8MB	Rust daemon 极致省内存

冷启动

工具	冷启动时间
browser-use	~3-5s（启动 Playwright）
browser-harness	~1s（连接已有 Chrome）
agent-browser	617ms

agent-browser 在性能上碾压式领先。Rust 原生 + 无 Node.js 依赖 + 8MB 内存，如果你在资源受限的环境（CI、Docker、Serverless）里跑，这是唯一合理的选择。

browser-harness 也很轻量，而且它连接的是你已经在跑的 Chrome，不需要额外启动浏览器进程。

browser-use 最重——它需要 Playwright 和独立的 Chromium 进程。但换来的是完整的自包含体验。

功能对比：谁做的事最多

核心浏览器操作

功能	browser-use	browser-harness	agent-browser
点击	✅	✅	✅
输入文本	✅	✅	✅
导航	✅	✅	✅
截图	✅	✅	✅
滚动	✅	✅	✅
拖拽	✅	✅	✅
文件上传	✅	✅	✅
下拉选择	✅	✅	✅
键盘按键	✅	✅	✅
多标签页	✅	✅	✅
Cookie 管理	✅	✅	✅
iframe 穿透	部分	✅（坐标点击）	✅

高级功能

功能	browser-use	browser-harness	agent-browser
自主 Agent 循环	✅	❌	AI Chat 模式
自定义工具	✅ `@tools.action`	❌	Skills 系统
模板/脚手架	✅	❌	❌
网络拦截	❌	❌	✅
HAR 录制	❌	❌	✅
快照 Diff	❌	❌	✅
像素 Diff	❌	❌	✅
React DevTools	❌	❌	✅
Web Vitals	❌	❌	✅
无障碍树快照	❌	❌	✅
批量执行	❌	❌	✅ `batch`
自我修复代码	❌	✅	❌
领域技能库	❌	✅ 100+ 站点	❌
Bulk HTTP Fetch	❌	✅	❌
隐式等待	✅ 内置	`wait_for_network_idle`	✅ 内置
MCP Server	✅	❌	✅
可观测性 Dashboard	❌	❌	✅
加密状态存储	❌	❌	✅ AES-256
iOS/Safari	❌	❌	✅ WebDriver

browser-use 功能最少但最聚焦——它只做 Agent 自主浏览这一件事，做好了。

agent-browser 功能最全，几乎覆盖了浏览器自动化的所有需求。网络拦截、HAR 录制、React DevTools、无障碍树这些是其他两个完全没有的。

browser-harness 的独特价值在两个地方：自我修复代码（Agent 运行时修改自己的 helper）和 100+ 领域技能（预置的各网站操作指南）。

LLM 支持对比

维度	browser-use	browser-harness	agent-browser
内置 LLM	✅ 15+ 提供商	❌ 无	Vercel AI Gateway
自有模型	✅ ChatBrowserUse	❌	❌
Claude 集成	原生	Skill 文件	Skill 文件
Codex 集成	原生	Skill 文件	Skill 文件
OpenAI	原生	—	AI Gateway
本地模型	✅ Ollama	—	—
多模型切换	✅	—	✅ `--model`

browser-use 的 LLM 支持最全面，15+ 原生集成。它还有自己的专有模型 ChatBrowserUse，号称比通用模型快 3-5 倍。

browser-harness 和 agent-browser 都是"不带大脑"的工具，LLM 由外部的编码 Agent（Claude Code、Codex 等）提供。

安全和反检测

能力	browser-use	browser-harness	agent-browser
反指纹检测	Cloud 版	Cloud 版	多浏览器引擎
验证码解决	Cloud 版	Cloud 版	第三方集成
代理轮换	Cloud 版	Cloud 版	多 Cloud 提供商
域名白名单	❌	❌	✅
操作策略	❌	❌	✅
状态加密	❌	❌	✅ AES-256
操作确认	❌	❌	✅

agent-browser 在安全方面最成熟——域名白名单限制 Agent 只能访问特定站点，操作策略控制允许的行为，AES-256 加密保护 session 数据。如果你的 Agent 处理敏感操作（支付、银行），这些是必须的。

browser-use 和 browser-harness 的安全能力主要靠 Cloud 版本，开源版基本没有安全控制。

部署和可扩展性

维度	browser-use	browser-harness	agent-browser
Docker 支持	✅	❌	✅
Cloud 浏览器	✅ 自有	✅ Browser Use Cloud	5+ 提供商
多实例并行	需要管理内存	`start_remote_daemon()`	`--session` 隔离
API 服务化	需要自己搭	❌	MCP Server
平台支持	全平台	macOS/Linux 优先	macOS/Linux/Windows
CI/CD 集成	中等	简单	最好（headless + batch）
跨平台	✅	Chrome 144+	✅ 含 Windows

上手难度

browser-use — 最简单

# 3 行代码搞定
agent = Agent(task="在 Google 上搜索 AI", llm=ChatOpenAI())
await agent.run()

装好就能跑，不需要懂浏览器操作。Python 开发者零门槛。

browser-harness — 中等

需要先让 Chrome 开启远程调试，然后通过 heredoc 写 Python 代码片段。主要面向已经用 Claude Code / Codex 的用户。

browser-harness <<'PY'
new_tab("https://example.com")
capture_screenshot()
PY

agent-browser — 命令最多但直觉

agent-browser open example.com
agent-browser snapshot   # 看到无障碍树
agent-browser click @e2  # 点第二个元素

命令行操作，学习曲线在记住命令。但 @eN 引用方式非常直觉——看到数字就点。

实际使用体验

browser-use 的体验

给它一个任务，它会自己拆解、自己操作、自己处理错误。你只需要等结果。最大的问题是速度慢——每一步都要截屏、发给 LLM、等 LLM 决策、执行、再截屏。一个简单的"搜索并截图"可能要 30 秒以上。

另一个问题是长任务容易失败。如果页面结构复杂或者需要多步操作，Agent 可能在中间迷失方向。自有的 ChatBrowserUse 模型在速度上有改善，但准确率还有差距。

browser-harness 的体验

用 Claude Code + browser-harness 的体验很独特。你在 Claude Code 里说"帮我看看 GitHub trending"，Claude Code 会自己写 browser-harness 代码来操作浏览器。如果代码有 bug，Claude Code 会自己修——这就是"自我修复"的含义。

坐标点击是个双刃剑：能穿透 iframe 和 shadow DOM，但对布局变化敏感。页面稍微改一下，坐标就变了。

agent-browser 的体验

最像"人用浏览器"的体验。snapshot 给你无障碍树，@eN 引用非常稳定——不管页面布局怎么变，元素的角色和文本不会变。

100+ 命令意味着几乎不需要写 JavaScript。但命令太多也意味着学习成本高。好在 doctor 命令能一键检查环境，upgrade 一键升级。

选型结论

你应该选 browser-use 如果你：

需要开箱即用的自主浏览 Agent
只想写 Python，不想碰 CLI
任务相对简单（搜索、填表、截图）
不介意速度慢一些
想用自有的 ChatBrowserUse 模型

你应该选 browser-harness 如果你：

已经在用 Claude Code 或 Codex
需要连接你自己的 Chrome（保持登录状态）
想要最轻量的方案（~1000 行代码）
需要特定网站的预置技能（100+ 领域技能）
喜欢"Agent 自己改代码"的理念

你应该选 agent-browser 如果你：

在资源受限环境运行（CI、Docker、Serverless）
需要最稳定的元素定位（无障碍树）
需要安全控制（域名白名单、加密、操作策略）
需要高级功能（网络拦截、React DevTools、HAR 录制）
想要最快的启动和运行速度（Rust 原生）
需要 Windows 或 iOS/Safari 支持
做严肃的生产级浏览器自动化

我的推荐

场景	推荐
快速原型 / Demo	browser-use
日常个人使用（Claude Code 用户）	browser-harness
生产环境 / 企业级	agent-browser
CI/CD 自动化	agent-browser
资源受限环境	agent-browser
需要自主 Agent	browser-use
需要安全控制	agent-browser
需要最高 stars	browser-use（94k）

如果只能选一个：agent-browser。它功能最全、性能最好、安全最成熟。唯一的代价是学习曲线稍高，但换来的是生产级的可靠性。

如果你是 Claude Code 重度用户并且只是日常使用：browser-harness。连接你自己的 Chrome，所有登录状态都在，100+ 领域技能开箱即用，极简设计让 Claude Code 能完全掌控。

如果你想最快跑起来看效果：browser-use。3 行代码，给它一个任务，它自己搞定。

作者: itech001
来源: 公众号：AI人工智能时代
主页: https://www.theaiera.cn，每日分享最前沿的AI新闻和技术。

本文首发于 AI人工智能时代，转载请注明出处。

posted @ 2026-05-14 20:44 iTech 阅读(29) 评论(0) 收藏举报

刷新页面返回顶部

iTech's Blog

AI人工智能时代 www.theaiera.cn