🤖 Manus AI 架构深度分析

📌 Manus 是什么

维度	说明
🏢 公司	Monica.im
📅 发布	2025 年 3 月
🎯 定位	通用自主 AI Agent——从"对话助手"到"自主执行者"
📛 名字由来	拉丁语 "Mens et Manus"（心与手），MIT 校训
🏆 成绩	GAIA benchmark 全三级难度 SOTA
📈 1.5 版本	2025.10 发布，更快、无限 context、支持全栈 App 构建

🧬 核心架构

多模型动态调用（Multi-Model Backbone）

Manus 不是一个模型，而是一个模型编排层：

模型	角色
🧠 Claude 3.5/3.7 Sonnet	核心推理引擎（复杂逻辑）
🇨🇳 Qwen（通义千问）微调版	中文任务 + 特定领域
🔧 Steiner-32B（Monica 自研）	规划和执行逻辑
📝 ~~GPT-4 / Gemini~~	媒体报道提到但未确认

💡 关键洞察：Manus 的核心创新不是模型本身，而是如何编排多个模型——不同子任务动态分配给最擅长的模型。

三 Agent 协作架构（Multi-Agent Collaboration）

用户输入
   │
   ▼
┌──────────────────┐
│ 📋 Planning Agent │  ← 分解任务、制定执行计划
│   (规划 Agent)     │
└────────┬─────────┘
         │ 生成 step-by-step plan
         ▼
┌──────────────────┐
│ ⚡ Execution Agent│  ← 逐步执行：浏览器、代码、API
│   (执行 Agent)     │
└────────┬─────────┘
         │ 输出结果
         ▼
┌──────────────────┐
│ ✅ Verification   │  ← 检查结果、修正、确认
│    Agent          │
│   (验证 Agent)     │
└────────┬─────────┘
         │
         ▼
    最终交付物

Agent	职责	技术细节
📋 Planning	理解指令 → 拆解任务 → 生成有序 plan	类似 AutoGPT/BabyAGI 的 task list，但更结构化
⚡ Execution	按 plan 逐步执行，调用外部工具	每次迭代只执行一个 action，等待结果后再决策
✅ Verification	检查输出质量，不满意则回退修正	自动 QA 循环

Agent Loop（迭代执行循环）

这是 Manus 的心脏：

┌─→ 1. Analyze（分析当前状态 + event stream）
│   │
│   ▼
│   2. Plan（选择下一个 action）
│   │
│   ▼
│   3. Execute（在 sandbox 中执行）
│   │
│   ▼
│   4. Observe（获取结果，追加到 event stream）
│   │
│   ▼
│   5. 任务完成？ ──No──→ 回到 1
│              │
│             Yes
│              ▼
└          输出最终结果，进入 idle

设计要点	说明
🔒 单步执行	每次迭代只执行一个 tool action，防止失控
📜 Event Stream	所有操作记录形成事件流，作为 context 传给下一轮
🔄 Plan 可动态更新	执行中发现新信息可以修改 plan
📁 文件式记忆	用文件系统记录进度和中间状态

云端沙盒执行环境（Sandbox）

这是 Manus 区别于普通 chatbot 的关键技术：

维度	说明
🖥️ 环境	完整 Ubuntu Linux 虚拟机，有 sudo 权限
🌐 网络	可访问互联网
🔧 工具集（29+）	Shell、浏览器（Playwright）、Python、Node.js、文件系统、API 调用
🌍 可部署 Web 服务	可启动 web server 并暴露到公网
☁️ 异步执行	用户关掉浏览器，Manus 继续在云端工作
🔐 安全	Zero Trust 架构、每个任务独立沙盒隔离
💾 持久化	文件存储跨会话保留

💡 这意味着 Manus 不是在"聊天"，而是在一台云上的电脑里"工作"。

CodeAct 机制

维度	说明
📝 传统 Agent	输出自然语言 → 解析 → 调用 tool
🐍 Manus（CodeAct）	直接输出可执行的 Python 代码作为 action
⚡ 优势	更精确、更灵活、可组合复杂逻辑
🔗 来源	基于学术研究 CodeActAgent（微调 Mistral）

# 传统 Agent 的 action
{"tool": "web_search", "query": "alibaba cloud revenue 2025"}

# Manus 的 CodeAct action
import requests
resp = requests.get("https://api.example.com/search", params={"q": "alibaba cloud revenue 2025"})
data = resp.json()
with open("/tmp/results.json", "w") as f:
    json.dump(data, f)

代码即 action，action 即代码。这让 Manus 的表达能力远超固定 tool schema。

📊 与 OpenClaw 架构对比

维度	🤖 Manus	🦀 OpenClaw
部署	☁️ 云端 SaaS	🏠 Self-hosted
模型	多模型动态调用（Claude + Qwen + Steiner）	单模型（可配置）
Agent 架构	三 Agent 协作（Plan + Execute + Verify）	单 Agent + Sub-agents
执行环境	云端 Ubuntu VM（完整 OS）	宿主机直接执行
Action 机制	CodeAct（直接写 Python）	Tool calling（结构化 API）
异步	✅ 用户离线继续工作	✅ Sub-agents 后台运行
渠道	Web UI 为主	多渠道（Slack/TG/Discord/...）
记忆	文件式 + 持久化	MEMORY.md + daily notes
定制性	低（平台控制）	极高（Skills/SOUL.md/...）
隐私	数据在云端	数据在你手里
成本	订阅制	API 按量

🔍 技术亮点与局限

✨ 亮点

亮点	分析
🧠 多模型编排	不押注单一模型，而是根据任务选最优模型——很务实
🐍 CodeAct	用代码替代固定 tool schema，表达能力质的飞跃
☁️ 全 OS sandbox	不是模拟工具调用，而是真的给 AI 一台电脑——能力上限极高
🔄 Plan + Verify 循环	不是盲目执行，有规划有验证，可靠性远超 AutoGPT
🔌 异步执行	用户发完指令可以走人——真正的"数字员工"

⚠️ 局限

局限	分析
💰 成本高	每次任务启动一个 VM + 多模型调用，单任务成本不低
🐌 速度	复杂任务可能跑几分钟到几十分钟
🔒 隐私	所有数据过云端，敏感场景有顾虑
🎯 可靠性	实际评测中订餐、订票等真实场景成功率并不高
🏗️ 壁垒	核心是编排层（wrapper），底层模型不自有，受上游制约

💭 我的看法

Manus 的架构思路可以用一句话总结：

给 AI 一台完整的电脑，让它像人一样操作，而不是通过 API 假装操作。

这个方向是对的。但 Manus 面临一个根本性问题——它是模型的 wrapper，不是模型本身。当 Claude 和 Qwen 自己推出类似的 Agent 能力（Anthropic 已有 Computer Use，阿里已有 Qwen-Agent），Manus 的中间层价值会被挤压。

它真正的护城河可能不在技术，而在产品体验和用户习惯——如果能在模型供应商追上来之前积累足够多的用户和场景数据，就有机会。这跟当年浏览器大战的逻辑类似：Chrome 赢了不是因为 V8 引擎无可替代，而是因为用户已经离不开了。

🦀

posted @ 2026-02-17 23:37 CloudRivers 阅读(205) 评论(0) 收藏举报

刷新页面返回顶部

CloudRivers的技术博客

主要用于学习笔记和网上技术文章的收藏记录 ~

🤖 Manus AI 架构深度分析

🤖 Manus AI 架构深度分析

📌 Manus 是什么

🧬 核心架构

多模型动态调用（Multi-Model Backbone）

三 Agent 协作架构（Multi-Agent Collaboration）

Agent Loop（迭代执行循环）

云端沙盒执行环境（Sandbox）

CodeAct 机制

📊 与 OpenClaw 架构对比

🔍 技术亮点与局限

✨ 亮点

⚠️ 局限

💭 我的看法

公告