[agent] Agentic AI: Multi-Agent Systems
Ref: Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | Multi-Agent AI by Noam Brown
self-play 为什么在 AlphaGo 那类任务里神一样有效,但一旦进入扑克、Diplomacy、人与 AI 协作、LLM 多 agent,事情就立刻复杂很多。
LLM 现在很像当年的 AlphaGo,但缺了最关键的一环
他先给出一个很漂亮的类比:
-
-
AlphaGo 路线
- 先用高质量人类棋谱预训练
- 再用大规模推理(如 MCTS)
- 最后用 self-play 做递归式自我提升
-
LLM 路线
- 先在互联网文本上预训练
- 再用大规模推理(如 Chain of Thought)
- 但第三步——像 self-play 那样持续自我博弈提升——还没有真正成熟
-
所以他的问题是:
为什么 self-play 在围棋、象棋、扑克里那么成功,但在 LLM 上没自然复制出来?
他的答案是:
因为很多人对 self-play 的理解,其实只适用于二人零和、完全信息游戏;一旦脱离这个范围,很多好性质都会消失。
你现在的“乱”,本质上是把两种不同的多 agent 混在一起了
第一种:高耦合协作型多 agent
特点是:
-
agent 之间要持续对齐上下文
-
一个 agent 的决定会深度影响另一个 agent
-
需要长链路协商、改计划、消冲突
-
典型如复杂 coding、共享代码库修改、多人共同写同一份方案
这正是 Cognition 最警惕 的类型。
第二种:并行探索型多 agent
特点是:
-
子任务相对独立
-
每个 agent 只负责一个方向
-
结果可被压缩成摘要交回主 agent
-
典型如广度研究、并行检索、多视角分析、角色化 brainstorming
这正是 Anthropic 证明有效的类型。
这段课基本上在讲一条主线:
“多个 AI agent 放在一起,不只是能合作做事,还会出现竞争、欺骗、社交、群体文化这些更像‘社会行为’的现象。”
发现:
Tree结构也还不错。(也接近真是人类社会的组织结构)
Chain: 最差。
Mesh与Random是随着agent number增加而最好的。看来头脑风暴,充分的探讨往往能得到最佳的结果。
但到后面会 saturate(饱和)。

Ref: Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | Predictable Noise in LLM Benchmarks by Sida Wang
很多论文:
-
只提升 1%~3%
- 但一些数据集的标准误差 ≈ 4%
👉 结论:
这些提升大概率是噪声
👉 最终观点
Small + Hard benchmark ≠ Reliable benchmark
2024 年,这个问题从“有人提醒”升级为“大家都在研究”。例如:
-
Investigating Data Contamination in Modern Benchmarks for Large Language Models 系统研究了现代 benchmark 的污染问题;
-
How Much are LLMs Contaminated? 做了更全面的 contamination survey;
-
LatestEval 这类工作则开始尝试做“更新鲜、减少污染”的评测方式。
这说明社区已经不只是抱怨,而是在认真补救。
到了 2025 年前后,不少论文已经直接把这件事称作一种 evaluation crisis,也就是“评测危机”:不是模型不进步,而是我们越来越难确认它到底进步了多少、进步在哪里、是不是被 benchmark 误导了。
Ref: Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | AI Agents to Automate Science by James Zou
The Virtual Lab
一个 Tree结构案例:
James Zou 不是说“让一个 GPT 去做科研”,而是说:
-
先有一个 PI agent / 教授 agent
-
再由它按任务需要,生成不同专长的 student agents
-
这些 agent 会 组会、单聊、分工
-
还可以去“上学”——也就是再学习、再专精
-
最后结合外部科学工具去做真实研究
Paper2Agent
这部分非常有意思,而且我觉得你会特别喜欢。
James Zou 认为,论文 PDF 是一种非常被动的知识载体。
你读完论文,往往还得:
-
自己看代码
-
自己配环境
-
自己猜作者怎么跑
-
自己改成适合你的任务
这就很低效。
所以 Paper2Agent 的想法是:
- 把每篇论文,变成一个 能直接对话、还能调用论文工具链的 agent。
Paper2Agent 的论文摘要明确写到:它会自动分析论文和相关代码库,用多个 agents 去构建一个 MCP server,再通过反复测试把这个 paper MCP 打磨稳固,然后把它接到聊天 agent 上,让用户可以直接自然语言调用这篇论文的工具和 workflow。
论文举的案例包括 ScanPy、TISSUE、以及 AlphaGenome。
用最通俗的话说:
以前是:论文 = 说明书
现在想变成:论文 = 可执行服务
也就是从:
-
“你去读我”
变成了 -
“你直接调用我”
这其实就是你最近一直在理解的那条主线:
- 知识不再只是文本,而是 agent 化、接口化、服务化。
不是“模型读不懂论文”,而是:模型没法稳定地把论文中的知识,转成可靠的可执行行为。
不要让一个 LLM 单枪匹马去“临场发挥”。
而是拆成多个更明确的子任务,让多个子 agent 各司其职,最后构造出一个稳健的 MCP server。

浙公网安备 33010602011771号