我的视频blog地址 http://www.lofter.com/blog/cloudrivers

🤖 Manus AI 架构深度分析

🤖 Manus AI 架构深度分析


📌 Manus 是什么

维度 说明
🏢 公司 Monica.im
📅 发布 2025 年 3 月
🎯 定位 通用自主 AI Agent——从"对话助手"到"自主执行者"
📛 名字由来 拉丁语 "Mens et Manus"(心与手),MIT 校训
🏆 成绩 GAIA benchmark 全三级难度 SOTA
📈 1.5 版本 2025.10 发布,更快、无限 context、支持全栈 App 构建

🧬 核心架构

多模型动态调用(Multi-Model Backbone)

Manus 不是一个模型,而是一个模型编排层

模型 角色
🧠 Claude 3.5/3.7 Sonnet 核心推理引擎(复杂逻辑)
🇨🇳 Qwen(通义千问)微调版 中文任务 + 特定领域
🔧 Steiner-32B(Monica 自研) 规划和执行逻辑
📝 GPT-4 / Gemini 媒体报道提到但未确认

💡 关键洞察:Manus 的核心创新不是模型本身,而是如何编排多个模型——不同子任务动态分配给最擅长的模型。


三 Agent 协作架构(Multi-Agent Collaboration)

用户输入
   │
   ▼
┌──────────────────┐
│ 📋 Planning Agent │  ← 分解任务、制定执行计划
│   (规划 Agent)     │
└────────┬─────────┘
         │ 生成 step-by-step plan
         ▼
┌──────────────────┐
│ ⚡ Execution Agent│  ← 逐步执行:浏览器、代码、API
│   (执行 Agent)     │
└────────┬─────────┘
         │ 输出结果
         ▼
┌──────────────────┐
│ ✅ Verification   │  ← 检查结果、修正、确认
│    Agent          │
│   (验证 Agent)     │
└────────┬─────────┘
         │
         ▼
    最终交付物
Agent 职责 技术细节
📋 Planning 理解指令 → 拆解任务 → 生成有序 plan 类似 AutoGPT/BabyAGI 的 task list,但更结构化
⚡ Execution 按 plan 逐步执行,调用外部工具 每次迭代只执行一个 action,等待结果后再决策
✅ Verification 检查输出质量,不满意则回退修正 自动 QA 循环

Agent Loop(迭代执行循环)

这是 Manus 的心脏:

┌─→ 1. Analyze(分析当前状态 + event stream)
│   │
│   ▼
│   2. Plan(选择下一个 action)
│   │
│   ▼
│   3. Execute(在 sandbox 中执行)
│   │
│   ▼
│   4. Observe(获取结果,追加到 event stream)
│   │
│   ▼
│   5. 任务完成? ──No──→ 回到 1
│              │
│             Yes
│              ▼
└          输出最终结果,进入 idle
设计要点 说明
🔒 单步执行 每次迭代只执行一个 tool action,防止失控
📜 Event Stream 所有操作记录形成事件流,作为 context 传给下一轮
🔄 Plan 可动态更新 执行中发现新信息可以修改 plan
📁 文件式记忆 用文件系统记录进度和中间状态

云端沙盒执行环境(Sandbox)

这是 Manus 区别于普通 chatbot 的关键技术

维度 说明
🖥️ 环境 完整 Ubuntu Linux 虚拟机,有 sudo 权限
🌐 网络 可访问互联网
🔧 工具集(29+) Shell、浏览器(Playwright)、Python、Node.js、文件系统、API 调用
🌍 可部署 Web 服务 可启动 web server 并暴露到公网
☁️ 异步执行 用户关掉浏览器,Manus 继续在云端工作
🔐 安全 Zero Trust 架构、每个任务独立沙盒隔离
💾 持久化 文件存储跨会话保留

💡 这意味着 Manus 不是在"聊天",而是在一台云上的电脑里"工作"。


CodeAct 机制

维度 说明
📝 传统 Agent 输出自然语言 → 解析 → 调用 tool
🐍 Manus(CodeAct) 直接输出可执行的 Python 代码作为 action
⚡ 优势 更精确、更灵活、可组合复杂逻辑
🔗 来源 基于学术研究 CodeActAgent(微调 Mistral)
# 传统 Agent 的 action
{"tool": "web_search", "query": "alibaba cloud revenue 2025"}

# Manus 的 CodeAct action
import requests
resp = requests.get("https://api.example.com/search", params={"q": "alibaba cloud revenue 2025"})
data = resp.json()
with open("/tmp/results.json", "w") as f:
    json.dump(data, f)

代码即 action,action 即代码。这让 Manus 的表达能力远超固定 tool schema。


📊 与 OpenClaw 架构对比

维度 🤖 Manus 🦀 OpenClaw
部署 ☁️ 云端 SaaS 🏠 Self-hosted
模型 多模型动态调用(Claude + Qwen + Steiner) 单模型(可配置)
Agent 架构 三 Agent 协作(Plan + Execute + Verify) 单 Agent + Sub-agents
执行环境 云端 Ubuntu VM(完整 OS) 宿主机直接执行
Action 机制 CodeAct(直接写 Python) Tool calling(结构化 API)
异步 ✅ 用户离线继续工作 ✅ Sub-agents 后台运行
渠道 Web UI 为主 多渠道(Slack/TG/Discord/...)
记忆 文件式 + 持久化 MEMORY.md + daily notes
定制性 低(平台控制) 极高(Skills/SOUL.md/...)
隐私 数据在云端 数据在你手里
成本 订阅制 API 按量

🔍 技术亮点与局限

✨ 亮点

亮点 分析
🧠 多模型编排 不押注单一模型,而是根据任务选最优模型——很务实
🐍 CodeAct 用代码替代固定 tool schema,表达能力质的飞跃
☁️ 全 OS sandbox 不是模拟工具调用,而是真的给 AI 一台电脑——能力上限极高
🔄 Plan + Verify 循环 不是盲目执行,有规划有验证,可靠性远超 AutoGPT
🔌 异步执行 用户发完指令可以走人——真正的"数字员工"

⚠️ 局限

局限 分析
💰 成本高 每次任务启动一个 VM + 多模型调用,单任务成本不低
🐌 速度 复杂任务可能跑几分钟到几十分钟
🔒 隐私 所有数据过云端,敏感场景有顾虑
🎯 可靠性 实际评测中订餐、订票等真实场景成功率并不高
🏗️ 壁垒 核心是编排层(wrapper),底层模型不自有,受上游制约

💭 我的看法

Manus 的架构思路可以用一句话总结:

给 AI 一台完整的电脑,让它像人一样操作,而不是通过 API 假装操作。

这个方向是对的。但 Manus 面临一个根本性问题——它是模型的 wrapper,不是模型本身。当 Claude 和 Qwen 自己推出类似的 Agent 能力(Anthropic 已有 Computer Use,阿里已有 Qwen-Agent),Manus 的中间层价值会被挤压。

它真正的护城河可能不在技术,而在产品体验和用户习惯——如果能在模型供应商追上来之前积累足够多的用户和场景数据,就有机会。这跟当年浏览器大战的逻辑类似:Chrome 赢了不是因为 V8 引擎无可替代,而是因为用户已经离不开了。

🦀

posted @ 2026-02-17 23:37  Michael云擎  阅读(10)  评论(0)    收藏  举报
我的视频blog地址 http://www.lofter.com/blog/cloudrivers