OpenBMB 开源 PilotDeck：清华系团队要给 Agent 造一个操作系统

2026 年 5 月 28 日，OpenBMB 正式开源了 PilotDeck——一个以 WorkSpace 为核心的 Agent 操作系统。项目由清华大学 THUNLP、ModelBest（面壁智能）、OpenBMB、AI9Stars 联合开发，TypeScript 编写，AGPL-3.0 协议，上线一周即获 400+ stars。

这不是又一个聊天机器人前端。PilotDeck 要解决的是一个更根本的问题：当你同时用 Agent 跑多个项目，记忆怎么隔离？成本怎么控制？人不在的时候活还能不能继续干？

先说结论：它到底在做什么

用一句话概括：PilotDeck 是给"同时跑多个长任务的 Agent"设计的操作系统。

市面上已经有不少优秀的 Agent 工具了。Claude Code、Cursor、Trae Solo 把模型推理深度嵌入编程 IDE；Claude Cowork 引入了项目级隔离；WorkBuddy 把 Agent 接入了飞书和企业微信。但当你从"单次编程"或"即时问答"切换到多项目并行的长周期生产力工作时，有几个问题始终没有好的答案：

多个项目并行，记忆能白盒可追溯吗？Agent 记错了东西，你能定位到是哪条记忆出了问题吗？能直接编辑吗？
Token 成本能按任务追踪吗？能不能让简单任务自动用便宜模型、复杂任务才用旗舰模型？
人离开键盘，活还能继续干吗？Agent 能自己发现值得做的事、主动报告进度吗？

PilotDeck 就是围绕这三个问题设计的。

三大核心能力

白盒记忆（White-box Memory）

这是 PilotDeck 最独特的功能。

当前大多数 Agent 的记忆是黑盒的——你知道 AI 输出了什么，但不知道它"记住了"什么、怎么记住的、为什么会引用某个过时的信息。出了问题，你只能开新对话从头来。

PilotDeck 把记忆的全流程做成白盒：

维度	黑盒 Agent	PilotDeck 白盒记忆
可见性	只能看到输出，看不到记忆内容	每条记忆都能查看：存了什么、什么时候存的、属于哪个 WorkSpace
可控性	写入后无法编辑或删除	可以编辑/删除/置顶关键决策，防止漂移
可追溯	出了问题找不到根因	生成→提取→存储→检索，全链路可审计
隔离性	共享记忆池，项目间互相污染	按 WorkSpace 隔离，A 的记忆不会跑到 B
可逆性	压缩后原始内容丢失	Dream Mode 支持一键回滚

还有一个有趣的设计叫 Dream Mode（做梦模式）。在 Agent 空闲时自动整理和压缩记忆，类似于人类睡眠时的记忆巩固过程。而且支持一键回滚——如果"做梦"后记忆出了问题，可以撤销回到之前的状态。

智能路由（Smart Routing）

这个功能解决的是"杀鸡不用牛刀"的问题。

不是每个任务都需要 Claude Opus 4.5 或 GPT-4o。简单的格式化、润色、布局调整用轻量模型就够了，只有复杂的规划、推理才需要旗舰模型。但在大多数 Agent 系统里，你要么全程用贵模型烧钱，要么全程用便宜模型牺牲质量。

PilotDeck 的 Smart Routing 自动检测任务难度：

复杂调用（规划、多步推理、代码架构）→ 旗舰模型（如 Claude Opus 4.5）
简单调用（润色、格式化、布局）→ 轻量模型（如 Sonnet 4.5）

官方给出的数据很有说服力。在小红书风格社媒运营场景中：

配置	模型组合	成本	倍率
Smart Routing 开启	Opus 4.5（主）+ Sonnet 4.5（副）	$2.83	1.1×
Smart Routing 关闭	全部 Opus 4.5	$12.58	5.0×
单体模式	单 Opus 4.5 长程 Agent（估算）	$12.20	4.8×

约 70% 的成本节省，而且输出质量不降。

更有意思的是，"强主 + 轻副"的路由组合在复杂任务上甚至能超越单一旗舰模型。7 个复杂任务（多语言播客推送、多源数据报告、文献综述、代码架构文档等）的基准测试：

配置	得分	成本
MiniMax-M2.7 单 Agent	37.1	$1.90
Claude Sonnet 4.6 单 Agent	69.1	$18.36
Sonnet 4.6（主）+ MiniMax-M2.7（副）	70.6	$3.15

得分最高，成本只有单一旗舰模型的 1/6。这背后的逻辑是：旗舰模型负责规划和决策，轻量模型负责执行，分工比单打独斗更高效。

Always-on 后台执行

大多数 Agent 都是"你问它答"的模式。你关掉终端、合上笔记本，Agent 就停了。

PilotDeck 打破了这个限制。它支持 Always-on 模式：你签退之后，Agent 继续在后台工作——发现候选任务、运行长时间监控、把交付成果保存为本地文件。等你回来，一份总结报告已经准备好了。

这对于需要长时间运行的任务特别有用：数据管道监控、定时报告生成、大规模代码重构。你不需要一直盯着屏幕。

WorkSpace：一切的核心抽象

三大能力之上，PilotDeck 有一个统一的抽象层：WorkSpace。

每个项目是一个 WorkSpace，拥有完全隔离的文件系统、记忆存储和技能集。这意味着：

你同时做 A 项目和 B 项目，两个项目的记忆不会互相污染
A 项目的风格偏好不会影响 B 项目的输出
每个 WorkSpace 可以独立配置模型、工具和权限
随着任务推进，技能自然积累——不需要手动维护全局上下文

这跟 Claude Cowork 的项目级隔离思路类似，但 PilotDeck 做得更彻底：不只是文件隔离，记忆、技能、模型配置都是 WorkSpace 级别的。

技术架构

从代码结构来看，PilotDeck 的架构相当模块化：

src/
├── agent/          # Agent 核心：loop, runtime, session, sub-agent
├── always-on/      # Always-on 后台执行：runtime, protocol, workspace
├── context/        # 上下文管理：memory, compaction, budget, recovery
├── router/         # 智能路由：orchestrate, scenario, tokenSaver, stats
├── mcp/            # MCP 协议：client, runtime, protocol
├── gateway/        # API 网关
├── extension/      # 插件系统
├── lifecycle/      # 生命周期管理
├── permission/     # 权限控制
├── tool/           # 工具接口
├── session/        # 会话管理
├── task/           # 任务系统
├── adapters/       # 前端适配器（Web/CLI/IM）
├── pilot/          # Pilot 核心
├── cli/            # 命令行接口
├── cron/           # 定时任务
├── model/          # 模型抽象层
├── web/            # Web 服务
ui/                 # 前端（React + Vite + Tailwind + shadcn/ui）
skills/             # 内建技能（skill-creator, find-skills 等）

几个值得注意的模块：

context/memory/：白盒记忆的实现，包括存储、检索、提取
context/compaction/：记忆压缩（Dream Mode 的核心）
context/budget/：上下文预算管理
router/orchestrate/：主副 Agent 的编排逻辑
router/tokenSaver/：Token 节省策略
always-on/runtime/：后台执行的运行时
agent/sub/：Sub-agent 管理（主副模型分工的实现）

支持的前端：Web UI、桌面应用（macOS / Windows）、命令行、IM（飞书/企业微信）。通过 adapters/ 层统一适配，行为一致。

安装和使用

三种安装方式：

一行安装（macOS / Linux）：

curl -fsSL https://raw.githubusercontent.com/OpenBMB/PilotDeck/main/install.sh | bash

从源码构建：

git clone https://github.com/OpenBMB/PilotDeck.git
cd PilotDeck
npm install && cd ui && npm install

Docker Compose：

docker compose up -d

还有桌面应用，macOS（Apple Silicon）和 Windows（x64 / ARM64）都有预构建安装包，双击即用。

模型配置支持 OpenAI、Anthropic、DeepSeek、Qwen、Kimi、MiniMax 等所有 OpenAI 兼容端点，可以在 YAML 文件里配，也可以在 Web UI 里可视化配置。

跟同类项目比，差异在哪

PilotDeck 跟 Claude Code、OpenClaw、Hermes 等 Agent 工具的定位有明显差异：

维度	Claude Code	OpenClaw	PilotDeck
核心场景	编程 IDE	通用 Agent	多项目生产力
隔离粒度	项目级	全局	WorkSpace 级（文件+记忆+技能）
记忆管理	隐式	隐式	白盒可编辑可回滚
模型路由	单一模型	单一模型	自动难度检测+多模型协同
后台执行	无	无	Always-on
开源协议	未开源	开源	AGPL-3.0

PilotDeck 的独特价值在于多项目并行的长周期场景。如果你只用 Agent 做单次编程或即时问答，Claude Code 或 Cursor 可能更适合。但如果你同时跑 5 个项目、需要记忆隔离和成本控制、还需要 Agent 在后台继续干活——PilotDeck 填补的正是这个空白。

几个值得思考的点

AGPL-3.0 协议的选择。 这意味着如果你基于 PilotDeck 做网络服务，必须开源你的修改。对企业用户来说需要注意这个约束。

版本节奏很快。 v0.0.9（5月25日）→ v0.0.10（5月26日）→ v0.0.11（5月27日），连续三天发版。说明团队在密集迭代，但也意味着 API 可能还不稳定。

清华系 AI 的开源传统。 OpenBMB 之前开源了 CPM、ChatGLM 等有影响力的项目。PilotDeck 是他们从"模型"向"Agent 基础设施"延伸的尝试。联合团队中 ModelBest（面壁智能）负责商业化落地，THUNLP 负责研究方向。

Smart Routing 的泛化潜力。 "强主 + 轻副"的分工模式不只适用于 PilotDeck 的场景。这个思路对任何需要控制 LLM 成本的系统都有参考价值：规划用贵模型，执行用便宜模型。PilotDeck 用数据证明了这条路走得通。

项目信息：
- GitHub：https://github.com/OpenBMB/PilotDeck
- 官网：https://pilotdeck.openbmb.cn
- 协议：AGPL-3.0
- 语言：TypeScript
- 版本：v0.0.11（截至 2026-05-28）
- 联合开发：清华 THUNLP、ModelBest、OpenBMB、AI9Stars

作者: itech001
来源: 公众号：AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代，转载请注明出处。

posted @ 2026-05-28 13:13 iTech 阅读(1168) 评论(0) 收藏举报

刷新页面返回顶部

iTech's Blog

AI人工智能时代 www.theaiera.cn

OpenBMB 开源 PilotDeck：清华系团队要给 Agent 造一个操作系统

OpenBMB 开源 PilotDeck：清华系团队要给 Agent 造一个操作系统

先说结论：它到底在做什么

三大核心能力

白盒记忆（White-box Memory）

智能路由（Smart Routing）

Always-on 后台执行

WorkSpace：一切的核心抽象

技术架构

安装和使用

跟同类项目比，差异在哪

几个值得思考的点

公告