browser-use vs browser-harness vs agent-browser:AI Agent 浏览器自动化工具终极选型指南

2026 年,AI Agent 要真正有用,必须能上网。不是调用 API 那种"上网",而是打开浏览器、点击按钮、填写表单、读取内容——像人一样操作网页。

目前做这件事的开源工具,最火的有三个:browser-use(94k stars)、agent-browser(33k stars)、browser-harness(12.6k stars)。Stars 差了快 10 倍,但选型不能只看 stars。

我把三个项目都实际跑了一遍,翻了源码和文档。这篇文章是我的选型结论。

本文提纲

  1. 三者定位完全不同
  2. 架构对比:谁的设计更聪明
  3. 性能对比:资源占用和速度
  4. 功能对比:谁做的事最多
  5. LLM 支持对比
  6. 安全和反检测
  7. 部署和可扩展性
  8. 上手难度
  9. 实际使用体验
  10. 选型结论

三者定位完全不同

先搞清楚一个关键事实:它们不是同一类东西。

browser-use — Agent 框架

from browser_use import Agent
agent = Agent(task="帮我买一张去东京的机票", llm=ChatOpenAI())
await agent.run()

browser-use 是一个完整的 Agent 框架。你给它一个任务,它自己规划、自己操作浏览器、自己完成。你不需要告诉它"先打开这个 URL,再点这个按钮"——它自己会想。

背后是 Playwright 驱动 Chromium,LLM 看到页面截图后决定下一步操作。

browser-harness — Agent 的工具

browser-harness <<'PY'
new_tab("https://example.com")
capture_screenshot()
click_at_xy(420, 310)
PY

browser-harness 是一个给 Agent 用的浏览器工具。它自己不带 LLM,不能自主决策。它被设计成 Claude Code、Codex 这类编码 Agent 的"双手"——Agent 做大脑,browser-harness 做执行。

核心只有 ~1000 行代码,直接通过 CDP(Chrome DevTools Protocol)连接你正在运行的 Chrome。

agent-browser — Agent 的 CLI

agent-browser open example.com
agent-browser snapshot
agent-browser click @e2
agent-browser screenshot page.png

agent-browser 是一个给 Agent 用的 CLI 工具。和 browser-harness 类似,它也不带 Agent 循环,但功能要全面得多——100+ 命令、Rust 原生、7MB 安装包。

MERMAID_BLOCK_0

架构对比:谁的设计更聪明

browser-use

用户任务  Agent Loop  LLM (看截图+DOM)  输出动作  Playwright 执行  循环
  • 浏览器引擎:Playwright + Chromium
  • 元素识别:DOM 索引(给每个可交互元素编号)
  • Agent 循环:内置(Agent.run()
  • 语言:Python(97.9%)

browser-harness

Chrome ← CDP WebSocket → Daemon ← IPC → CLI
  • 浏览器引擎:你的真实 Chrome(通过 CDP 直连)
  • 元素识别:像素坐标(截图 → 看像素 → 点击坐标)
  • Agent 循环:无(依赖外部 Agent)
  • 语言:Python,~1000 行
  • 亮点:Agent 可以修改自己的 helper 代码(自我进化)

agent-browser

Chrome ← CDP → Rust Daemon ← CLI / MCP
  • 浏览器引擎:Chrome CDP + Lightpanda + Safari WebDriver
  • 元素识别:Accessibility Tree + @eN 引用(最稳定的方式)
  • Agent 循环:无(CLI 工具),但内置 AI Chat 模式
  • 语言:Rust(v0.20 完全重写)
  • 亮点:无障碍树快照,确定性元素引用

架构对比表

维度 browser-use browser-harness agent-browser
浏览器引擎 Playwright 真实 Chrome (CDP) Chrome CDP / Rust
元素定位 DOM 索引 像素坐标 无障碍树 @eN
Agent 循环 ✅ 内置 ❌ 无 ❌ 无(有 AI Chat)
代码量 大(完整框架) ~1000 行 中等(100+ 命令)
语言 Python Python Rust
浏览器依赖 自带 Chromium 用你的 Chrome 自带 + 可连已有

性能对比:资源占用和速度

安装体积

工具 安装大小 依赖
browser-use ~200MB+ Python + Playwright + Chromium
browser-harness ~10MB Python + websockets
agent-browser 7MB 无(纯 Rust 二进制)

运行时内存

工具 Daemon 内存 说明
browser-use ~200MB+ Playwright + Chromium 进程
browser-harness ~30MB 只是一个 CDP 桥
agent-browser 8MB Rust daemon 极致省内存

冷启动

工具 冷启动时间
browser-use ~3-5s(启动 Playwright)
browser-harness ~1s(连接已有 Chrome)
agent-browser 617ms

agent-browser 在性能上碾压式领先。Rust 原生 + 无 Node.js 依赖 + 8MB 内存,如果你在资源受限的环境(CI、Docker、Serverless)里跑,这是唯一合理的选择。

browser-harness 也很轻量,而且它连接的是你已经在跑的 Chrome,不需要额外启动浏览器进程。

browser-use 最重——它需要 Playwright 和独立的 Chromium 进程。但换来的是完整的自包含体验。

功能对比:谁做的事最多

核心浏览器操作

功能 browser-use browser-harness agent-browser
点击
输入文本
导航
截图
滚动
拖拽
文件上传
下拉选择
键盘按键
多标签页
Cookie 管理
iframe 穿透 部分 ✅(坐标点击)

高级功能

功能 browser-use browser-harness agent-browser
自主 Agent 循环 AI Chat 模式
自定义工具 @tools.action Skills 系统
模板/脚手架
网络拦截
HAR 录制
快照 Diff
像素 Diff
React DevTools
Web Vitals
无障碍树快照
批量执行 batch
自我修复代码
领域技能库 ✅ 100+ 站点
Bulk HTTP Fetch
隐式等待 ✅ 内置 wait_for_network_idle ✅ 内置
MCP Server
可观测性 Dashboard
加密状态存储 ✅ AES-256
iOS/Safari ✅ WebDriver

browser-use 功能最少但最聚焦——它只做 Agent 自主浏览这一件事,做好了。

agent-browser 功能最全,几乎覆盖了浏览器自动化的所有需求。网络拦截、HAR 录制、React DevTools、无障碍树这些是其他两个完全没有的。

browser-harness 的独特价值在两个地方:自我修复代码(Agent 运行时修改自己的 helper)和 100+ 领域技能(预置的各网站操作指南)。

LLM 支持对比

维度 browser-use browser-harness agent-browser
内置 LLM ✅ 15+ 提供商 ❌ 无 Vercel AI Gateway
自有模型 ✅ ChatBrowserUse
Claude 集成 原生 Skill 文件 Skill 文件
Codex 集成 原生 Skill 文件 Skill 文件
OpenAI 原生 AI Gateway
本地模型 ✅ Ollama
多模型切换 --model

browser-use 的 LLM 支持最全面,15+ 原生集成。它还有自己的专有模型 ChatBrowserUse,号称比通用模型快 3-5 倍。

browser-harness 和 agent-browser 都是"不带大脑"的工具,LLM 由外部的编码 Agent(Claude Code、Codex 等)提供。

安全和反检测

能力 browser-use browser-harness agent-browser
反指纹检测 Cloud 版 Cloud 版 多浏览器引擎
验证码解决 Cloud 版 Cloud 版 第三方集成
代理轮换 Cloud 版 Cloud 版 多 Cloud 提供商
域名白名单
操作策略
状态加密 ✅ AES-256
操作确认

agent-browser 在安全方面最成熟——域名白名单限制 Agent 只能访问特定站点,操作策略控制允许的行为,AES-256 加密保护 session 数据。如果你的 Agent 处理敏感操作(支付、银行),这些是必须的。

browser-use 和 browser-harness 的安全能力主要靠 Cloud 版本,开源版基本没有安全控制。

部署和可扩展性

维度 browser-use browser-harness agent-browser
Docker 支持
Cloud 浏览器 ✅ 自有 ✅ Browser Use Cloud 5+ 提供商
多实例并行 需要管理内存 start_remote_daemon() --session 隔离
API 服务化 需要自己搭 MCP Server
平台支持 全平台 macOS/Linux 优先 macOS/Linux/Windows
CI/CD 集成 中等 简单 最好(headless + batch)
跨平台 Chrome 144+ ✅ 含 Windows

上手难度

browser-use — 最简单

# 3 行代码搞定
agent = Agent(task="在 Google 上搜索 AI", llm=ChatOpenAI())
await agent.run()

装好就能跑,不需要懂浏览器操作。Python 开发者零门槛。

browser-harness — 中等

需要先让 Chrome 开启远程调试,然后通过 heredoc 写 Python 代码片段。主要面向已经用 Claude Code / Codex 的用户。

browser-harness <<'PY'
new_tab("https://example.com")
capture_screenshot()
PY

agent-browser — 命令最多但直觉

agent-browser open example.com
agent-browser snapshot   # 看到无障碍树
agent-browser click @e2  # 点第二个元素

命令行操作,学习曲线在记住命令。但 @eN 引用方式非常直觉——看到数字就点。

实际使用体验

browser-use 的体验

给它一个任务,它会自己拆解、自己操作、自己处理错误。你只需要等结果。最大的问题是速度慢——每一步都要截屏、发给 LLM、等 LLM 决策、执行、再截屏。一个简单的"搜索并截图"可能要 30 秒以上。

另一个问题是长任务容易失败。如果页面结构复杂或者需要多步操作,Agent 可能在中间迷失方向。自有的 ChatBrowserUse 模型在速度上有改善,但准确率还有差距。

browser-harness 的体验

用 Claude Code + browser-harness 的体验很独特。你在 Claude Code 里说"帮我看看 GitHub trending",Claude Code 会自己写 browser-harness 代码来操作浏览器。如果代码有 bug,Claude Code 会自己修——这就是"自我修复"的含义。

坐标点击是个双刃剑:能穿透 iframe 和 shadow DOM,但对布局变化敏感。页面稍微改一下,坐标就变了。

agent-browser 的体验

最像"人用浏览器"的体验。snapshot 给你无障碍树,@eN 引用非常稳定——不管页面布局怎么变,元素的角色和文本不会变。

100+ 命令意味着几乎不需要写 JavaScript。但命令太多也意味着学习成本高。好在 doctor 命令能一键检查环境,upgrade 一键升级。

选型结论

你应该选 browser-use 如果你:

  • 需要开箱即用的自主浏览 Agent
  • 只想写 Python,不想碰 CLI
  • 任务相对简单(搜索、填表、截图)
  • 不介意速度慢一些
  • 想用自有的 ChatBrowserUse 模型

你应该选 browser-harness 如果你:

  • 已经在用 Claude Code 或 Codex
  • 需要连接你自己的 Chrome(保持登录状态)
  • 想要最轻量的方案(~1000 行代码)
  • 需要特定网站的预置技能(100+ 领域技能)
  • 喜欢"Agent 自己改代码"的理念

你应该选 agent-browser 如果你:

  • 资源受限环境运行(CI、Docker、Serverless)
  • 需要最稳定的元素定位(无障碍树)
  • 需要安全控制(域名白名单、加密、操作策略)
  • 需要高级功能(网络拦截、React DevTools、HAR 录制)
  • 想要最快的启动和运行速度(Rust 原生)
  • 需要 Windows 或 iOS/Safari 支持
  • 做严肃的生产级浏览器自动化

我的推荐

场景 推荐
快速原型 / Demo browser-use
日常个人使用(Claude Code 用户) browser-harness
生产环境 / 企业级 agent-browser
CI/CD 自动化 agent-browser
资源受限环境 agent-browser
需要自主 Agent browser-use
需要安全控制 agent-browser
需要最高 stars browser-use(94k)

如果只能选一个:agent-browser。它功能最全、性能最好、安全最成熟。唯一的代价是学习曲线稍高,但换来的是生产级的可靠性。

如果你是 Claude Code 重度用户并且只是日常使用:browser-harness。连接你自己的 Chrome,所有登录状态都在,100+ 领域技能开箱即用,极简设计让 Claude Code 能完全掌控。

如果你想最快跑起来看效果:browser-use。3 行代码,给它一个任务,它自己搞定。


作者: itech001
来源: 公众号:AI人工智能时代
主页: https://www.theaiera.cn,每日分享最前沿的AI新闻和技术。

本文首发于 AI人工智能时代,转载请注明出处。

posted @ 2026-05-14 20:44  iTech  阅读(29)  评论(0)    收藏  举报