OpenBMB 开源 PilotDeck:清华系团队要给 Agent 造一个操作系统

OpenBMB 开源 PilotDeck:清华系团队要给 Agent 造一个操作系统

2026 年 5 月 28 日,OpenBMB 正式开源了 PilotDeck——一个以 WorkSpace 为核心的 Agent 操作系统。项目由清华大学 THUNLP、ModelBest(面壁智能)、OpenBMB、AI9Stars 联合开发,TypeScript 编写,AGPL-3.0 协议,上线一周即获 400+ stars。

这不是又一个聊天机器人前端。PilotDeck 要解决的是一个更根本的问题:当你同时用 Agent 跑多个项目,记忆怎么隔离?成本怎么控制?人不在的时候活还能不能继续干?

先说结论:它到底在做什么

用一句话概括:PilotDeck 是给"同时跑多个长任务的 Agent"设计的操作系统。

市面上已经有不少优秀的 Agent 工具了。Claude Code、Cursor、Trae Solo 把模型推理深度嵌入编程 IDE;Claude Cowork 引入了项目级隔离;WorkBuddy 把 Agent 接入了飞书和企业微信。但当你从"单次编程"或"即时问答"切换到多项目并行的长周期生产力工作时,有几个问题始终没有好的答案:

  • 多个项目并行,记忆能白盒可追溯吗?Agent 记错了东西,你能定位到是哪条记忆出了问题吗?能直接编辑吗?
  • Token 成本能按任务追踪吗?能不能让简单任务自动用便宜模型、复杂任务才用旗舰模型?
  • 人离开键盘,活还能继续干吗?Agent 能自己发现值得做的事、主动报告进度吗?

PilotDeck 就是围绕这三个问题设计的。

三大核心能力

白盒记忆(White-box Memory)

这是 PilotDeck 最独特的功能。

当前大多数 Agent 的记忆是黑盒的——你知道 AI 输出了什么,但不知道它"记住了"什么、怎么记住的、为什么会引用某个过时的信息。出了问题,你只能开新对话从头来。

PilotDeck 把记忆的全流程做成白盒:

维度 黑盒 Agent PilotDeck 白盒记忆
可见性 只能看到输出,看不到记忆内容 每条记忆都能查看:存了什么、什么时候存的、属于哪个 WorkSpace
可控性 写入后无法编辑或删除 可以编辑/删除/置顶关键决策,防止漂移
可追溯 出了问题找不到根因 生成→提取→存储→检索,全链路可审计
隔离性 共享记忆池,项目间互相污染 按 WorkSpace 隔离,A 的记忆不会跑到 B
可逆性 压缩后原始内容丢失 Dream Mode 支持一键回滚

还有一个有趣的设计叫 Dream Mode(做梦模式)。在 Agent 空闲时自动整理和压缩记忆,类似于人类睡眠时的记忆巩固过程。而且支持一键回滚——如果"做梦"后记忆出了问题,可以撤销回到之前的状态。

智能路由(Smart Routing)

这个功能解决的是"杀鸡不用牛刀"的问题。

不是每个任务都需要 Claude Opus 4.5 或 GPT-4o。简单的格式化、润色、布局调整用轻量模型就够了,只有复杂的规划、推理才需要旗舰模型。但在大多数 Agent 系统里,你要么全程用贵模型烧钱,要么全程用便宜模型牺牲质量。

PilotDeck 的 Smart Routing 自动检测任务难度:

  • 复杂调用(规划、多步推理、代码架构)→ 旗舰模型(如 Claude Opus 4.5)
  • 简单调用(润色、格式化、布局)→ 轻量模型(如 Sonnet 4.5)

官方给出的数据很有说服力。在小红书风格社媒运营场景中:

配置 模型组合 成本 倍率
Smart Routing 开启 Opus 4.5(主)+ Sonnet 4.5(副) $2.83 1.1×
Smart Routing 关闭 全部 Opus 4.5 $12.58 5.0×
单体模式 单 Opus 4.5 长程 Agent(估算) $12.20 4.8×

约 70% 的成本节省,而且输出质量不降。

更有意思的是,"强主 + 轻副"的路由组合在复杂任务上甚至能超越单一旗舰模型。7 个复杂任务(多语言播客推送、多源数据报告、文献综述、代码架构文档等)的基准测试:

配置 得分 成本
MiniMax-M2.7 单 Agent 37.1 $1.90
Claude Sonnet 4.6 单 Agent 69.1 $18.36
Sonnet 4.6(主)+ MiniMax-M2.7(副) 70.6 $3.15

得分最高,成本只有单一旗舰模型的 1/6。这背后的逻辑是:旗舰模型负责规划和决策,轻量模型负责执行,分工比单打独斗更高效。

Always-on 后台执行

大多数 Agent 都是"你问它答"的模式。你关掉终端、合上笔记本,Agent 就停了。

PilotDeck 打破了这个限制。它支持 Always-on 模式:你签退之后,Agent 继续在后台工作——发现候选任务、运行长时间监控、把交付成果保存为本地文件。等你回来,一份总结报告已经准备好了。

这对于需要长时间运行的任务特别有用:数据管道监控、定时报告生成、大规模代码重构。你不需要一直盯着屏幕。

WorkSpace:一切的核心抽象

三大能力之上,PilotDeck 有一个统一的抽象层:WorkSpace

每个项目是一个 WorkSpace,拥有完全隔离的文件系统、记忆存储和技能集。这意味着:

  • 你同时做 A 项目和 B 项目,两个项目的记忆不会互相污染
  • A 项目的风格偏好不会影响 B 项目的输出
  • 每个 WorkSpace 可以独立配置模型、工具和权限
  • 随着任务推进,技能自然积累——不需要手动维护全局上下文

这跟 Claude Cowork 的项目级隔离思路类似,但 PilotDeck 做得更彻底:不只是文件隔离,记忆、技能、模型配置都是 WorkSpace 级别的。

技术架构

从代码结构来看,PilotDeck 的架构相当模块化:

src/
├── agent/          # Agent 核心:loop, runtime, session, sub-agent
├── always-on/      # Always-on 后台执行:runtime, protocol, workspace
├── context/        # 上下文管理:memory, compaction, budget, recovery
├── router/         # 智能路由:orchestrate, scenario, tokenSaver, stats
├── mcp/            # MCP 协议:client, runtime, protocol
├── gateway/        # API 网关
├── extension/      # 插件系统
├── lifecycle/      # 生命周期管理
├── permission/     # 权限控制
├── tool/           # 工具接口
├── session/        # 会话管理
├── task/           # 任务系统
├── adapters/       # 前端适配器(Web/CLI/IM)
├── pilot/          # Pilot 核心
├── cli/            # 命令行接口
├── cron/           # 定时任务
├── model/          # 模型抽象层
├── web/            # Web 服务
ui/                 # 前端(React + Vite + Tailwind + shadcn/ui)
skills/             # 内建技能(skill-creator, find-skills 等)

几个值得注意的模块:

  • context/memory/:白盒记忆的实现,包括存储、检索、提取
  • context/compaction/:记忆压缩(Dream Mode 的核心)
  • context/budget/:上下文预算管理
  • router/orchestrate/:主副 Agent 的编排逻辑
  • router/tokenSaver/:Token 节省策略
  • always-on/runtime/:后台执行的运行时
  • agent/sub/:Sub-agent 管理(主副模型分工的实现)

支持的前端:Web UI、桌面应用(macOS / Windows)、命令行、IM(飞书/企业微信)。通过 adapters/ 层统一适配,行为一致。

安装和使用

三种安装方式:

一行安装(macOS / Linux):

curl -fsSL https://raw.githubusercontent.com/OpenBMB/PilotDeck/main/install.sh | bash

从源码构建:

git clone https://github.com/OpenBMB/PilotDeck.git
cd PilotDeck
npm install && cd ui && npm install

Docker Compose:

docker compose up -d

还有桌面应用,macOS(Apple Silicon)和 Windows(x64 / ARM64)都有预构建安装包,双击即用。

模型配置支持 OpenAI、Anthropic、DeepSeek、Qwen、Kimi、MiniMax 等所有 OpenAI 兼容端点,可以在 YAML 文件里配,也可以在 Web UI 里可视化配置。

跟同类项目比,差异在哪

PilotDeck 跟 Claude Code、OpenClaw、Hermes 等 Agent 工具的定位有明显差异:

维度 Claude Code OpenClaw PilotDeck
核心场景 编程 IDE 通用 Agent 多项目生产力
隔离粒度 项目级 全局 WorkSpace 级(文件+记忆+技能)
记忆管理 隐式 隐式 白盒可编辑可回滚
模型路由 单一模型 单一模型 自动难度检测+多模型协同
后台执行 Always-on
开源协议 未开源 开源 AGPL-3.0

PilotDeck 的独特价值在于多项目并行的长周期场景。如果你只用 Agent 做单次编程或即时问答,Claude Code 或 Cursor 可能更适合。但如果你同时跑 5 个项目、需要记忆隔离和成本控制、还需要 Agent 在后台继续干活——PilotDeck 填补的正是这个空白。

几个值得思考的点

AGPL-3.0 协议的选择。 这意味着如果你基于 PilotDeck 做网络服务,必须开源你的修改。对企业用户来说需要注意这个约束。

版本节奏很快。 v0.0.9(5月25日)→ v0.0.10(5月26日)→ v0.0.11(5月27日),连续三天发版。说明团队在密集迭代,但也意味着 API 可能还不稳定。

清华系 AI 的开源传统。 OpenBMB 之前开源了 CPM、ChatGLM 等有影响力的项目。PilotDeck 是他们从"模型"向"Agent 基础设施"延伸的尝试。联合团队中 ModelBest(面壁智能)负责商业化落地,THUNLP 负责研究方向。

Smart Routing 的泛化潜力。 "强主 + 轻副"的分工模式不只适用于 PilotDeck 的场景。这个思路对任何需要控制 LLM 成本的系统都有参考价值:规划用贵模型,执行用便宜模型。PilotDeck 用数据证明了这条路走得通。


项目信息:
- GitHub:https://github.com/OpenBMB/PilotDeck
- 官网:https://pilotdeck.openbmb.cn
- 协议:AGPL-3.0
- 语言:TypeScript
- 版本:v0.0.11(截至 2026-05-28)
- 联合开发:清华 THUNLP、ModelBest、OpenBMB、AI9Stars


作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。

posted @ 2026-05-28 13:13  iTech  阅读(153)  评论(0)    收藏  举报