OpenBMB 开源 PilotDeck:清华系团队要给 Agent 造一个操作系统
OpenBMB 开源 PilotDeck:清华系团队要给 Agent 造一个操作系统
2026 年 5 月 28 日,OpenBMB 正式开源了 PilotDeck——一个以 WorkSpace 为核心的 Agent 操作系统。项目由清华大学 THUNLP、ModelBest(面壁智能)、OpenBMB、AI9Stars 联合开发,TypeScript 编写,AGPL-3.0 协议,上线一周即获 400+ stars。
这不是又一个聊天机器人前端。PilotDeck 要解决的是一个更根本的问题:当你同时用 Agent 跑多个项目,记忆怎么隔离?成本怎么控制?人不在的时候活还能不能继续干?
先说结论:它到底在做什么
用一句话概括:PilotDeck 是给"同时跑多个长任务的 Agent"设计的操作系统。
市面上已经有不少优秀的 Agent 工具了。Claude Code、Cursor、Trae Solo 把模型推理深度嵌入编程 IDE;Claude Cowork 引入了项目级隔离;WorkBuddy 把 Agent 接入了飞书和企业微信。但当你从"单次编程"或"即时问答"切换到多项目并行的长周期生产力工作时,有几个问题始终没有好的答案:
- 多个项目并行,记忆能白盒可追溯吗?Agent 记错了东西,你能定位到是哪条记忆出了问题吗?能直接编辑吗?
- Token 成本能按任务追踪吗?能不能让简单任务自动用便宜模型、复杂任务才用旗舰模型?
- 人离开键盘,活还能继续干吗?Agent 能自己发现值得做的事、主动报告进度吗?
PilotDeck 就是围绕这三个问题设计的。
三大核心能力
白盒记忆(White-box Memory)
这是 PilotDeck 最独特的功能。
当前大多数 Agent 的记忆是黑盒的——你知道 AI 输出了什么,但不知道它"记住了"什么、怎么记住的、为什么会引用某个过时的信息。出了问题,你只能开新对话从头来。
PilotDeck 把记忆的全流程做成白盒:
| 维度 | 黑盒 Agent | PilotDeck 白盒记忆 |
|---|---|---|
| 可见性 | 只能看到输出,看不到记忆内容 | 每条记忆都能查看:存了什么、什么时候存的、属于哪个 WorkSpace |
| 可控性 | 写入后无法编辑或删除 | 可以编辑/删除/置顶关键决策,防止漂移 |
| 可追溯 | 出了问题找不到根因 | 生成→提取→存储→检索,全链路可审计 |
| 隔离性 | 共享记忆池,项目间互相污染 | 按 WorkSpace 隔离,A 的记忆不会跑到 B |
| 可逆性 | 压缩后原始内容丢失 | Dream Mode 支持一键回滚 |
还有一个有趣的设计叫 Dream Mode(做梦模式)。在 Agent 空闲时自动整理和压缩记忆,类似于人类睡眠时的记忆巩固过程。而且支持一键回滚——如果"做梦"后记忆出了问题,可以撤销回到之前的状态。
智能路由(Smart Routing)
这个功能解决的是"杀鸡不用牛刀"的问题。
不是每个任务都需要 Claude Opus 4.5 或 GPT-4o。简单的格式化、润色、布局调整用轻量模型就够了,只有复杂的规划、推理才需要旗舰模型。但在大多数 Agent 系统里,你要么全程用贵模型烧钱,要么全程用便宜模型牺牲质量。
PilotDeck 的 Smart Routing 自动检测任务难度:
- 复杂调用(规划、多步推理、代码架构)→ 旗舰模型(如 Claude Opus 4.5)
- 简单调用(润色、格式化、布局)→ 轻量模型(如 Sonnet 4.5)
官方给出的数据很有说服力。在小红书风格社媒运营场景中:
| 配置 | 模型组合 | 成本 | 倍率 |
|---|---|---|---|
| Smart Routing 开启 | Opus 4.5(主)+ Sonnet 4.5(副) | $2.83 | 1.1× |
| Smart Routing 关闭 | 全部 Opus 4.5 | $12.58 | 5.0× |
| 单体模式 | 单 Opus 4.5 长程 Agent(估算) | $12.20 | 4.8× |
约 70% 的成本节省,而且输出质量不降。
更有意思的是,"强主 + 轻副"的路由组合在复杂任务上甚至能超越单一旗舰模型。7 个复杂任务(多语言播客推送、多源数据报告、文献综述、代码架构文档等)的基准测试:
| 配置 | 得分 | 成本 |
|---|---|---|
| MiniMax-M2.7 单 Agent | 37.1 | $1.90 |
| Claude Sonnet 4.6 单 Agent | 69.1 | $18.36 |
| Sonnet 4.6(主)+ MiniMax-M2.7(副) | 70.6 | $3.15 |
得分最高,成本只有单一旗舰模型的 1/6。这背后的逻辑是:旗舰模型负责规划和决策,轻量模型负责执行,分工比单打独斗更高效。
Always-on 后台执行
大多数 Agent 都是"你问它答"的模式。你关掉终端、合上笔记本,Agent 就停了。
PilotDeck 打破了这个限制。它支持 Always-on 模式:你签退之后,Agent 继续在后台工作——发现候选任务、运行长时间监控、把交付成果保存为本地文件。等你回来,一份总结报告已经准备好了。
这对于需要长时间运行的任务特别有用:数据管道监控、定时报告生成、大规模代码重构。你不需要一直盯着屏幕。
WorkSpace:一切的核心抽象
三大能力之上,PilotDeck 有一个统一的抽象层:WorkSpace。
每个项目是一个 WorkSpace,拥有完全隔离的文件系统、记忆存储和技能集。这意味着:
- 你同时做 A 项目和 B 项目,两个项目的记忆不会互相污染
- A 项目的风格偏好不会影响 B 项目的输出
- 每个 WorkSpace 可以独立配置模型、工具和权限
- 随着任务推进,技能自然积累——不需要手动维护全局上下文
这跟 Claude Cowork 的项目级隔离思路类似,但 PilotDeck 做得更彻底:不只是文件隔离,记忆、技能、模型配置都是 WorkSpace 级别的。
技术架构
从代码结构来看,PilotDeck 的架构相当模块化:
src/
├── agent/ # Agent 核心:loop, runtime, session, sub-agent
├── always-on/ # Always-on 后台执行:runtime, protocol, workspace
├── context/ # 上下文管理:memory, compaction, budget, recovery
├── router/ # 智能路由:orchestrate, scenario, tokenSaver, stats
├── mcp/ # MCP 协议:client, runtime, protocol
├── gateway/ # API 网关
├── extension/ # 插件系统
├── lifecycle/ # 生命周期管理
├── permission/ # 权限控制
├── tool/ # 工具接口
├── session/ # 会话管理
├── task/ # 任务系统
├── adapters/ # 前端适配器(Web/CLI/IM)
├── pilot/ # Pilot 核心
├── cli/ # 命令行接口
├── cron/ # 定时任务
├── model/ # 模型抽象层
├── web/ # Web 服务
ui/ # 前端(React + Vite + Tailwind + shadcn/ui)
skills/ # 内建技能(skill-creator, find-skills 等)
几个值得注意的模块:
context/memory/:白盒记忆的实现,包括存储、检索、提取context/compaction/:记忆压缩(Dream Mode 的核心)context/budget/:上下文预算管理router/orchestrate/:主副 Agent 的编排逻辑router/tokenSaver/:Token 节省策略always-on/runtime/:后台执行的运行时agent/sub/:Sub-agent 管理(主副模型分工的实现)
支持的前端:Web UI、桌面应用(macOS / Windows)、命令行、IM(飞书/企业微信)。通过 adapters/ 层统一适配,行为一致。
安装和使用
三种安装方式:
一行安装(macOS / Linux):
curl -fsSL https://raw.githubusercontent.com/OpenBMB/PilotDeck/main/install.sh | bash
从源码构建:
git clone https://github.com/OpenBMB/PilotDeck.git
cd PilotDeck
npm install && cd ui && npm install
Docker Compose:
docker compose up -d
还有桌面应用,macOS(Apple Silicon)和 Windows(x64 / ARM64)都有预构建安装包,双击即用。
模型配置支持 OpenAI、Anthropic、DeepSeek、Qwen、Kimi、MiniMax 等所有 OpenAI 兼容端点,可以在 YAML 文件里配,也可以在 Web UI 里可视化配置。
跟同类项目比,差异在哪
PilotDeck 跟 Claude Code、OpenClaw、Hermes 等 Agent 工具的定位有明显差异:
| 维度 | Claude Code | OpenClaw | PilotDeck |
|---|---|---|---|
| 核心场景 | 编程 IDE | 通用 Agent | 多项目生产力 |
| 隔离粒度 | 项目级 | 全局 | WorkSpace 级(文件+记忆+技能) |
| 记忆管理 | 隐式 | 隐式 | 白盒可编辑可回滚 |
| 模型路由 | 单一模型 | 单一模型 | 自动难度检测+多模型协同 |
| 后台执行 | 无 | 无 | Always-on |
| 开源协议 | 未开源 | 开源 | AGPL-3.0 |
PilotDeck 的独特价值在于多项目并行的长周期场景。如果你只用 Agent 做单次编程或即时问答,Claude Code 或 Cursor 可能更适合。但如果你同时跑 5 个项目、需要记忆隔离和成本控制、还需要 Agent 在后台继续干活——PilotDeck 填补的正是这个空白。
几个值得思考的点
AGPL-3.0 协议的选择。 这意味着如果你基于 PilotDeck 做网络服务,必须开源你的修改。对企业用户来说需要注意这个约束。
版本节奏很快。 v0.0.9(5月25日)→ v0.0.10(5月26日)→ v0.0.11(5月27日),连续三天发版。说明团队在密集迭代,但也意味着 API 可能还不稳定。
清华系 AI 的开源传统。 OpenBMB 之前开源了 CPM、ChatGLM 等有影响力的项目。PilotDeck 是他们从"模型"向"Agent 基础设施"延伸的尝试。联合团队中 ModelBest(面壁智能)负责商业化落地,THUNLP 负责研究方向。
Smart Routing 的泛化潜力。 "强主 + 轻副"的分工模式不只适用于 PilotDeck 的场景。这个思路对任何需要控制 LLM 成本的系统都有参考价值:规划用贵模型,执行用便宜模型。PilotDeck 用数据证明了这条路走得通。
项目信息:
- GitHub:https://github.com/OpenBMB/PilotDeck
- 官网:https://pilotdeck.openbmb.cn
- 协议:AGPL-3.0
- 语言:TypeScript
- 版本:v0.0.11(截至 2026-05-28)
- 联合开发:清华 THUNLP、ModelBest、OpenBMB、AI9Stars
作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。
本文首发于 AI人工智能时代,转载请注明出处。

浙公网安备 33010602011771号