[agent] Agentic AI: Multi-Agent Systems

Ref: Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | Multi-Agent AI by Noam Brown

self-play 为什么在 AlphaGo 那类任务里神一样有效，但一旦进入扑克、Diplomacy、人与 AI 协作、LLM 多 agent，事情就立刻复杂很多。

LLM 现在很像当年的 AlphaGo，但缺了最关键的一环

他先给出一个很漂亮的类比：

- AlphaGo 路线
1. 1. 先用高质量人类棋谱预训练
  2. 再用大规模推理（如 MCTS）
  3. 最后用 self-play 做递归式自我提升
- LLM 路线
1. 1. 先在互联网文本上预训练
  2. 再用大规模推理（如 Chain of Thought）
  3. 但第三步——像 self-play 那样持续自我博弈提升——还没有真正成熟

所以他的问题是：

为什么 self-play 在围棋、象棋、扑克里那么成功，但在 LLM 上没自然复制出来？

他的答案是：

因为很多人对 self-play 的理解，其实只适用于二人零和、完全信息游戏；一旦脱离这个范围，很多好性质都会消失。

你现在的“乱”，本质上是把两种不同的多 agent 混在一起了

第一种：高耦合协作型多 agent

特点是：

agent 之间要持续对齐上下文
一个 agent 的决定会深度影响另一个 agent
需要长链路协商、改计划、消冲突
典型如复杂 coding、共享代码库修改、多人共同写同一份方案

这正是 Cognition 最警惕 的类型。

第二种：并行探索型多 agent

特点是：

子任务相对独立
每个 agent 只负责一个方向
结果可被压缩成摘要交回主 agent
典型如广度研究、并行检索、多视角分析、角色化 brainstorming

这正是 Anthropic 证明有效的类型。

课后阅读：AI Agent (2/3): AI Agent 之間可以有什麼樣的互動

这段课基本上在讲一条主线：

“多个 AI agent 放在一起，不只是能合作做事，还会出现竞争、欺骗、社交、群体文化这些更像‘社会行为’的现象。”

发现：

Tree结构也还不错。（也接近真是人类社会的组织结构）

Chain: 最差。

Mesh与Random是随着agent number增加而最好的。看来头脑风暴，充分的探讨往往能得到最佳的结果。

但到后面会 saturate（饱和）。

Ref: Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | Predictable Noise in LLM Benchmarks by Sida Wang

很多论文：

只提升 1%~3%
但一些数据集的标准误差 ≈ 4%

👉 结论：

这些提升大概率是噪声

👉 最终观点

Small + Hard benchmark ≠ Reliable benchmark

2024 年，这个问题从“有人提醒”升级为“大家都在研究”。例如：

Investigating Data Contamination in Modern Benchmarks for Large Language Models 系统研究了现代 benchmark 的污染问题；
How Much are LLMs Contaminated? 做了更全面的 contamination survey；
LatestEval 这类工作则开始尝试做“更新鲜、减少污染”的评测方式。
这说明社区已经不只是抱怨，而是在认真补救。

到了 2025 年前后，不少论文已经直接把这件事称作一种 evaluation crisis，也就是“评测危机”：不是模型不进步，而是我们越来越难确认它到底进步了多少、进步在哪里、是不是被 benchmark 误导了。

Ref: Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | AI Agents to Automate Science by James Zou

The Virtual Lab

一个 Tree结构案例：

James Zou 不是说“让一个 GPT 去做科研”，而是说：

先有一个 PI agent / 教授 agent
再由它按任务需要，生成不同专长的 student agents
这些 agent 会 组会、单聊、分工
还可以去“上学”——也就是再学习、再专精
最后结合外部科学工具去做真实研究

Paper2Agent

这部分非常有意思，而且我觉得你会特别喜欢。

James Zou 认为，论文 PDF 是一种非常被动的知识载体。
你读完论文，往往还得：

自己看代码
自己配环境
自己猜作者怎么跑
自己改成适合你的任务

这就很低效。

所以 Paper2Agent 的想法是：

把每篇论文，变成一个能直接对话、还能调用论文工具链的 agent。

Paper2Agent 的论文摘要明确写到：它会自动分析论文和相关代码库，用多个 agents 去构建一个 MCP server，再通过反复测试把这个 paper MCP 打磨稳固，然后把它接到聊天 agent 上，让用户可以直接自然语言调用这篇论文的工具和 workflow。

论文举的案例包括 ScanPy、TISSUE、以及 AlphaGenome。

用最通俗的话说：

以前是：论文 = 说明书

现在想变成：论文 = 可执行服务

也就是从：

“你去读我”
变成了
“你直接调用我”

这其实就是你最近一直在理解的那条主线：

知识不再只是文本，而是 agent 化、接口化、服务化。

不是“模型读不懂论文”，而是：模型没法稳定地把论文中的知识，转成可靠的可执行行为。

不要让一个 LLM 单枪匹马去“临场发挥”。

而是拆成多个更明确的子任务，让多个子 agent 各司其职，最后构造出一个稳健的 MCP server。

posted @ 2026-03-17 13:08 郝壹贰叁阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston