结构决定功能,历史揭示设计。本文从用户视角出发,向底层追问"它是怎么做到的"。
OpenClaw 是什么?
你在任何聊天窗口给它发一条消息,它就能帮你操作电脑——执行命令、读写文件、浏览网页、操控桌面应用、管理定时任务,甚至语音对话。
和常见的 AI 聊天机器人不同,OpenClaw 运行在你自己的电脑上,不依赖云端服务器。它支持 WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等海外主流平台,也通过插件支持飞书、企业微信、qq等国内渠道。除了消息平台,还有 macOS / iOS / Android 原生应用,以及终端命令行和 Web 控制台。
简单说:20+ 种入口,一个本地 AI 大脑,一套工具集。
graph TB
subgraph IN ["用户入口"]
MSG["消息渠道<br/>WhatsApp · Telegram · Discord<br/>Slack · Signal · iMessage<br/>飞书 · LINE · Matrix ..."]
APP["原生应用<br/>macOS · iOS · Android"]
CLI["终端与 Web<br/>TUI 命令行 · Control UI"]
end
subgraph GW ["Gateway 网关"]
R["消息路由"] --- Q["消息队列"]
Q --- S["会话管理"]
S --- CR["Cron 调度"]
CR --- HK["Hook 系统"]
HK --- PL["Plugin 注册"]
end
subgraph AG ["Agent 运行时"]
PI["Pi SDK agent loop"] --- PR["Provider 路由"]
PR --- FO["Model Failover"]
FO --- CE["Context Engine"]
end
subgraph TL ["工具集"]
T1["系统操作<br/>exec · read · write · cron"]
T2["网络与感知<br/>browser · web_search · memory"]
T3["多媒体与 GUI<br/>peekaboo · canvas · tts"]
end
MSG --> GW
APP --> GW
CLI --> GW
GW --> AG
AG --> T1
AG --> T2
AG --> T3
style MSG fill:#bbdefb,stroke:#333
style APP fill:#bbdefb,stroke:#333
style CLI fill:#bbdefb,stroke:#333
style R fill:#fff9c4,stroke:#333
style Q fill:#fff9c4,stroke:#333
style S fill:#fff9c4,stroke:#333
style CR fill:#fff9c4,stroke:#333
style HK fill:#fff9c4,stroke:#333
style PL fill:#fff9c4,stroke:#333
style PI fill:#e8d5f5,stroke:#333
style PR fill:#e8d5f5,stroke:#333
style FO fill:#e8d5f5,stroke:#333
style CE fill:#e8d5f5,stroke:#333
style T1 fill:#c8e6c9,stroke:#333
style T2 fill:#c8e6c9,stroke:#333
style T3 fill:#c8e6c9,stroke:#333
演化史
OpenClaw 历经 Warelay → Clawdis → Clawdbot → OpenClaw 四次更名,我们看看每次更名时的架构变化。
Warelay:"一条管道"
项目名 warelay = WA Relay(WhatsApp 中继)。用户通过 WhatsApp 或短信给 AI 发消息,收到文字回复。没有 Gateway、没有 Agent、没有会话管理——就是一个 webhook 脚本。
graph LR
A["Twilio / Baileys<br/>接收消息"] --> B["Express 路由"] --> C["AI API<br/>生成回复"] --> D["原路返回"]
style A fill:#f9f,stroke:#333
style D fill:#9f9,stroke:#333
关键选择:用 Baileys(开源 WhatsApp 协议库)而非商业 API 收发 WhatsApp。好处是免费且不依赖第三方服务,代价是 Baileys 要求每台机器只能维持一个 WhatsApp 会话。
Clawdis:最关键的跃迁
这是变化最剧烈的阶段——三件大事同时发生:
引入 Pi SDK:Pi 是一个外部 agent 框架,提供了"消息 → prompt → 调大模型 → 解析工具调用 → 执行 → 循环"的核心 agent 循环(架构详见后文 Pi Agent Runtime 一节)。OpenClaw 从此不再是"收到消息调一次 API",而是一个真正的 AI agent。
2 周内接入 5 个渠道:Telegram、Discord、Signal、iMessage、WhatsApp——每个平台的消息格式、API 风格、群组概念都不同。多渠道的差异催生了 Adapter 模式和 Channel Dock(统一注册中心),每个渠道只实现它需要的接口子集(详见后文通道适配器一节)。
Gateway 诞生:从一个 CLI 命令行工具变为常驻后台服务,所有客户端通过 WebSocket 统一接入,内含消息路由、队列、会话管理、Cron 调度、Hook 系统和 Plugin 注册。
Clawdbot → OpenClaw:生产化与平台化
核心思路是让新功能通过插件生长,核心代码库不再膨胀。为此落地了三层扩展机制:
插件系统:Plugin SDK + jiti
社区开发插件时,导出一个 register(api) 函数即可声明能力——可注册的类型包括:
- 渠道(
registerChannel)—— 接入新的消息平台
- 工具(
registerTool)—— 给 AI 新的操作能力
- 钩子(
registerHook)—— 在消息流水线的特定节点插入逻辑
- HTTP 路由 / CLI 子命令 / 后台服务 —— 扩展 Gateway 和命令行
Node.js 生态的模块格式分裂(ESM vs CJS)是插件加载的主要障碍。OpenClaw 用 jiti(运行时 TypeScript 编译加载器)统一处理:插件不需要预编译,写完直接安装即可运行。目前 40+ 个扩展(飞书、LINE、Matrix、Twitch、语音通话……)都以插件形式存在。
本地记忆:sqlite-vec
让 AI 拥有跨会话的长期记忆。文本切片后转为向量,存入本地 SQLite,用 sqlite-vec 扩展做余弦相似度检索。搜索采用混合策略——向量语义匹配 + BM25 关键词匹配——兼顾"意思相近"和"关键词命中"。所有数据留在本地磁盘,也可通过 MCP 桥接对接外部知识库。
技能市场:ClawHub
插件解决了渠道和工具的扩展,但 AI 的行为模式怎么共享?ClawHub(clawhub.ai)是公开的技能注册中心。技能本质是注入 system prompt 的声明文件,描述 AI 在特定场景下该怎么做(比如"操控 macOS 桌面"、"生成代码后自动运行测试")。
- 安装:
clawhub install <slug>
- 加载优先级:workspace > 本地 > 内置
- 社区治理:点赞、评论、举报,有独立审核机制
项目的 VISION.md 明确要求:新技能应先发布到 ClawHub,不要默认加入核心仓库。
核心子系统拆解
Pi Agent Runtime:OpenClaw 的大脑
OpenClaw 的 agent 能力不是从零自研——它站在 Pi SDK 的肩膀上。Pi 是一个 7 包 monorepo,从底向上分三层:
graph TB
subgraph PI_AI ["pi-ai · LLM 抽象层"]
direction LR
PROV["Provider 注册<br/>Anthropic · OpenAI · Google<br/>Mistral · Bedrock 等 16+"]
MODEL["Model 注册表<br/>340KB 自动生成<br/>成本 · 窗口 · 能力"]
STREAM["EventStream<br/>统一流式协议<br/>text / thinking / toolcall"]
PROV --- MODEL --- STREAM
end
subgraph PI_AGENT ["pi-agent-core · Agent 运行时"]
direction LR
LOOP["Agent Loop<br/>prompt → stream → parse<br/>→ execute → loop"]
TOOL["Tool 系统<br/>TypeBox schema 校验<br/>流式进度回调"]
EVENT["事件总线<br/>turn_start · message_update<br/>tool_execution_end ..."]
STEER["Steering + FollowUp<br/>运行中插入新指令<br/>排队后续任务"]
LOOP --- TOOL --- EVENT --- STEER
end
subgraph PI_APP ["pi-coding-agent · SDK 层"]
direction LR
SDK["createAgentSession()<br/>工具 · 钩子 · 会话一站式初始化"]
SESS["SessionManager<br/>JSONL 树形持久化<br/>分支 · 恢复 · 压缩"]
CTX["Context 管线<br/>transformContext 裁剪注入<br/>convertToLlm 格式转换"]
SDK --- SESS --- CTX
end
PI_AI --> PI_AGENT --> PI_APP
style PROV fill:#e8d5f5,stroke:#333
style MODEL fill:#e8d5f5,stroke:#333
style STREAM fill:#e8d5f5,stroke:#333
style LOOP fill:#d5e8f5,stroke:#333
style TOOL fill:#d5e8f5,stroke:#333
style EVENT fill:#d5e8f5,stroke:#333
style STEER fill:#d5e8f5,stroke:#333
style SDK fill:#c8e6c9,stroke:#333
style SESS fill:#c8e6c9,stroke:#333
style CTX fill:#c8e6c9,stroke:#333
pi-ai(LLM 抽象层) 把 16+ 家模型供应商统一成一个 stream(model, context) 调用。每个供应商实现一个 StreamFunction,把各家私有的流式响应转成标准事件序列(text_delta、thinking_delta、toolcall_start/end)。模型注册表是自动生成的,包含每个模型的成本、上下文窗口、支持的输入类型(文本/图片)和推理能力。
pi-agent-core(Agent 运行时) 提供核心循环:用户消息进入 → 流式调用 LLM → 解析工具调用 → 按序执行工具 → 结果返回 LLM → 继续循环直到 end_turn。工具用 TypeBox 定义参数 schema,运行时自动校验。。
pi-coding-agent(SDK 层) 提供 createAgentSession() 工厂方法,一次性组装工具集、上下文钩子和会话存储。SessionManager 用 JSONL 文件存储对话树(每条消息有 id + parentId),支持分支、恢复和压缩。上下文管线分两步:transformContext() 在 AgentMessage 层面裁剪/注入(比如删掉过旧的消息),convertToLlm() 再把自定义消息类型转成 LLM 能理解的标准格式。
OpenClaw 在 Pi 之上包了六部分,让它从一个通用 agent 框架变成多渠道 AI 助手:
graph LR
subgraph PI ["Pi SDK"]
PA["agent 循环引擎"]
PB["LLM 流式推理"]
PC["SessionManager<br/>会话持久化"]
end
PI --> L1 & L4
subgraph OC1 ["OpenClaw 包装 — 调度层"]
L1["Provider 路由<br/>适配不同 LLM 供应商"]
L2["Model Failover<br/>主模型挂了自动切备用"]
L3["Context Engine<br/>长对话不丢上下文"]
end
subgraph OC2 ["OpenClaw 包装 — 接入层"]
L4["工具注册<br/>exec / browser / memory ..."]
L5["Prompt 构建<br/>系统指令 + Skills"]
L6["会话订阅<br/>流式回调给渠道"]
end
style PI fill:#e8d5f5,stroke:#333
style OC1 fill:#fff3e0,stroke:#333
style OC2 fill:#fff3e0,stroke:#333
消息全链路:从收到到回复
一条消息从进入系统到收到回复,经过这样的流水线:
graph TD
A["1 收到原始消息"] --> B["2 归一化<br/>不同渠道的消息统一成相同格式"]
B --> C["3 去重"]
C --> D
subgraph D ["4 Hook + 路由"]
direction LR
D1["触发插件钩子<br/>如自动翻译、日志"] -.- D2["路由解析<br/>确定交给哪个 Agent"]
end
D --> E
subgraph E ["5 媒体理解"]
direction LR
E1["语音转文字"] -.- E2["图片生成描述"]
end
E --> F
subgraph F ["6 入队策略"]
direction LR
F1["eager<br/>立即处理"] -.- F2["batch<br/>短时间多条合并处理"] -.- F3["debounce<br/>等用户停止输入再处理"]
end
F --> G
subgraph G ["7 Agent 执行"]
direction LR
G1["Pi SDK 循环"] -.- G2["Steering 转向"]
end
G --> H
subgraph H ["8 回复调度"]
direction LR
H1["保证顺序"] -.- H2["仿人打字间隔"]
end
H --> I["9 投递到渠道"]
style A fill:#bbdefb,stroke:#333
style B fill:#bbdefb,stroke:#333
style C fill:#bbdefb,stroke:#333
style D fill:#fff9c4,stroke:#333
style E fill:#fff9c4,stroke:#333
style E1 fill:#fff9c4,stroke:#333
style E2 fill:#fff9c4,stroke:#333
style F fill:#fff9c4,stroke:#333
style F1 fill:#fff9c4,stroke:#333
style F2 fill:#fff9c4,stroke:#333
style F3 fill:#fff9c4,stroke:#333
style G fill:#e8d5f5,stroke:#333
style G1 fill:#e8d5f5,stroke:#333
style G2 fill:#e8d5f5,stroke:#333
style H fill:#c8e6c9,stroke:#333
style H1 fill:#c8e6c9,stroke:#333
style H2 fill:#c8e6c9,stroke:#333
style I fill:#c8e6c9,stroke:#333
两个值得注意的设计:
-
Steering(转向):agent 正在生成回复时,你又发了一条消息。普通系统会让你等上一条处理完。OpenClaw 通过 session.steer() 把新消息实时注入当前 agent 运行,AI 会立刻调整回复方向——就像你跟人说话时补了一句"等等,我改主意了"。
-
仿人延迟:回复不是一次性弹出,而是分块发送,块间插入随机间隔,模拟真人打字节奏。在微信、Telegram 这类即时通讯里,这让对话体验更自然。
通道适配器:如何统一 20+ 种渠道
WhatsApp 有"已读回执",Telegram 有"群组管理 API",Discord 有"权限体系",Signal 几乎什么管理接口都没有——每个平台的能力完全不同。
OpenClaw 的做法不是设计一个大而全的接口让每个通道都实现,而是拆成 10 种细粒度 Adapter,每个通道只实现它需要的子集:
graph TB
DOCK["Channel Dock 注册中心<br/>渠道发现 · 生命周期管理"] --> A_TG["Telegram"]
DOCK --> A_DC["Discord"]
DOCK --> A_WA["WhatsApp"]
DOCK --> A_MORE["..."]
subgraph IFACE ["Adapter 接口(按需实现)"]
direction LR
subgraph LIFE ["生命周期"]
direction LR
IF1["Setup"] -.- IF2["Config"] -.- IF6["Status"] -.- IF8["Heartbeat"]
end
subgraph MSG ["消息收发"]
direction LR
IF4["Messaging"] -.- IF3["Outbound"] -.- IF10["Media"]
end
subgraph PERM ["权限与管理"]
direction LR
IF7["Security"] -.- IF9["Auth"] -.- IF5["Group"]
end
end
A_TG --> IFACE
A_DC --> IFACE
A_WA --> IFACE
A_MORE --> IFACE
style DOCK fill:#d5e8f5,stroke:#333
style IFACE fill:#eef4fb,stroke:#333
style LIFE fill:#e8f5e9,stroke:#a5d6a7
style MSG fill:#fff3e0,stroke:#ffcc80
style PERM fill:#fce4ec,stroke:#ef9a9a
- WhatsApp 实现了 HeartbeatAdapter(Baileys 连接不稳定,需要心跳保活)
- Discord 实现了 SecurityAdapter(有复杂的权限体系)
- Signal 不需要 GroupAdapter(没有群管理 API)
社区开发新渠道插件(比如飞书、LINE)时,用 Plugin SDK 实现同样的接口即可接入,不需要改动 OpenClaw 核心代码。
Peekaboo Bridge:让 AI 看见并操控 macOS 桌面
你在 WhatsApp 里说"帮我看看屏幕上是什么",AI 就能截屏、理解画面内容、告诉你答案。你说"点击登录按钮",它就能找到按钮并点击。你说"打开 Safari 访问某个网址",它能启动应用、导航页面、在输入框里打字。
这背后是 Peekaboo——一个 macOS 桌面自动化工具,让 AI 拥有"眼睛"和"手":
- 看:截屏、录屏、标注 UI 元素(给每个按钮/输入框分配 ID),配合 AI 视觉分析理解画面
- 操作:点击、打字、按键组合、滚动、拖拽,支持定位到具体 UI 元素
- 管理:启动/切换/关闭应用,管理窗口大小和位置,切换 macOS 空间,读写剪贴板
典型工作流是:截屏标注 → AI 识别元素 ID → 点击/输入 → 再截屏确认结果,全程在聊天窗口完成。
Peekaboo 内部分为五层:
graph TB
subgraph CONSUMER ["消费层"]
direction LR
CLI["peekaboo CLI<br/>Commander 框架"]
APP["macOS App<br/>SwiftUI"]
MCP["MCP Server<br/>供外部 AI 调用"]
AGENT["内置 Agent<br/>Tachikoma 驱动"]
end
subgraph BRIDGE ["Bridge IPC 层"]
direction LR
CLIENT["BridgeClient<br/>连接 UNIX Socket"]
HOST["BridgeHost<br/>监听 Socket"]
VERIFY["代码签名验证<br/>Team ID 白名单"]
CLIENT --> HOST
HOST --> VERIFY
end
subgraph ORCH ["服务编排层"]
UAS["UIAutomationService<br/>统一调度入口"]
SNAP["SnapshotManager<br/>元素状态缓存"]
VIS["Visualizer<br/>点击动画 · 高亮反馈"]
UAS --- SNAP
UAS --- VIS
end
DET["ElementDetection<br/>AX 树遍历 · 元素分类<br/>B1/T1 编号"]
CAP["ScreenCapture"]
CLK["Click · Type<br/>Scroll · Hotkey"]
APPCTL["App · Window<br/>Space · Menu"]
AX["Accessibility<br/>AXorcist 封装"]
SCK["ScreenCaptureKit"]
CG["CGEvent<br/>鼠标 · 键盘"]
AS["AppleScript<br/>应用管理"]
CLI --> BRIDGE
APP --> ORCH
MCP --> BRIDGE
AGENT --> ORCH
BRIDGE --> ORCH
ORCH --> DET & CAP & CLK & APPCTL
DET --> AX
CAP --> SCK
CLK --> CG
APPCTL --> AS
style CLI fill:#bbdefb,stroke:#333
style APP fill:#bbdefb,stroke:#333
style MCP fill:#bbdefb,stroke:#333
style AGENT fill:#bbdefb,stroke:#333
style CLIENT fill:#fff9c4,stroke:#333
style HOST fill:#fff9c4,stroke:#333
style VERIFY fill:#fff9c4,stroke:#333
style UAS fill:#e8d5f5,stroke:#333
style SNAP fill:#e8d5f5,stroke:#333
style VIS fill:#e8d5f5,stroke:#333
style DET fill:#c8e6c9,stroke:#333
style CAP fill:#c8e6c9,stroke:#333
style CLK fill:#c8e6c9,stroke:#333
style APPCTL fill:#c8e6c9,stroke:#333
style AX fill:#ffe0b2,stroke:#333
style SCK fill:#ffe0b2,stroke:#333
style CG fill:#ffe0b2,stroke:#333
style AS fill:#ffe0b2,stroke:#333
几个关键设计:
Bridge 权限代理:macOS 的屏幕录制和辅助功能权限是按应用授予的,但 AI agent 调用的是命令行工具 peekaboo。解决方案是 Bridge 架构——CLI 通过 UNIX Socket 连接到 OpenClaw.app 内的 BridgeHost 进程,BridgeHost 先验证调用方的代码签名和 Team ID,通过后才借出 app 已获得的权限执行操作。用户只需在系统设置里授权一次 OpenClaw.app。
元素检测与编号:see 命令截屏时同步遍历 Accessibility 树(通过 AXorcist 封装),把每个可交互元素按类型编号——按钮 B1、B2,输入框 T1、T2。遍历有严格限制(深度 8 层、子节点 200 个、150ms 超时),检测结果缓存 1.5 秒避免重复遍历。后续 click B1 就能直接定位到目标元素。
内置 Agent 模式:Peekaboo 自带基于 Tachikoma 的 agent 循环(支持 OpenAI / Anthropic / Ollama 等模型),可以独立执行多步桌面任务——不经过 OpenClaw,直接 peekaboo agent "打开备忘录写一条待办" 就能截屏→分析→点击→输入→确认,循环直到完成。
Skill 注入:Peekaboo 在 OpenClaw 中不是代码依赖,而是一个 Skill——通过声明文件标注"仅限 macOS、需要 peekaboo 命令",运行时按需注入到 AI 的 system prompt 中。非 macOS 用户完全不会感知到它的存在。
Cron 调度器:不只是定时器
OpenClaw 的定时任务不是简单的 setInterval,而是一个生产级调度系统:
- SHA256 Stagger:如果设了 100 个"每天早上 9 点"的定时任务,不会同时触发——用每个任务 ID 的 SHA256 哈希做确定性偏移(默认在 5 分钟窗口内分散),避免所有任务同一秒涌入,导致 CPU 和 API 调用瞬间过载
- 两种执行模式:
systemEvent(把消息注入主会话,像用户发了一条消息)和 agentTurn(启动独立的 agent 运行,互不干扰)
- 容错:失败后指数退避重试(30 秒 → 1 分钟 → 5 分钟 → 15 分钟 → 1 小时),连续失败触发告警,临时 session 自动回收
Context Engine:长对话不丢记忆
大模型有上下文窗口限制(比如 200K token),聊久了上下文就超出。Pi SDK 提供了底层的两步上下文管线(transformContext 裁剪 + convertToLlm 格式转换),OpenClaw 在此基础上实现了自己的 Context Engine,定义了 5 个生命周期钩子:
bootstrap(初始化)→ ingest(新消息进入)→ assemble(组装发给模型的上下文)→ compact(上下文太长时压缩)→ afterTurn(一轮对话结束后清理)
默认实现用 token 计数 + LLM 摘要来压缩历史对话。但整个 Context Engine 是可插拔的——社区可以写一个完全不同的实现(比如基于向量检索的长期记忆),替换进去不需要改一行核心代码。
结语
阿瑟·克拉克在《2001:太空漫游》里写过一个场景:猿人月亮观察者捡起一块石头,第一次意识到自己的手可以延伸。从那一刻起,工具就不再是身体之外的东西——它是意志的投射。
我们今天拆解的这些——Gateway、Adapter、Bridge、Agent Loop——本质上都是同一件事的不同切面:让意图穿透介质。用户在 WhatsApp 里打一行字,意图穿过消息协议、穿过归一化流水线、穿过 LLM 的概率空间、穿过工具调用,最终变成屏幕上的一次点击、磁盘上的一个文件、终端里的一行输出。中间的每一层抽象,都是为了让这条路径上的摩擦再少一点。
这让人想起维纳在《控制论》里的判断:智能的本质不是计算,而是与环境之间有效的信息交换。OpenClaw 做的事情,与其说是"让 AI 用工具",不如说是在缩短人的意图与世界的状态之间的距离。