[agent] Agentic AI: Multi-Agent Systems

 

Ref: Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | Multi-Agent AI by Noam Brown


self-play 为什么在 AlphaGo 那类任务里神一样有效,但一旦进入扑克、Diplomacy、人与 AI 协作、LLM 多 agent,事情就立刻复杂很多。

LLM 现在很像当年的 AlphaGo,但缺了最关键的一环

他先给出一个很漂亮的类比:

    • AlphaGo 路线

      1. 先用高质量人类棋谱预训练
      2. 再用大规模推理(如 MCTS)
      3. 最后用 self-play 做递归式自我提升
    • LLM 路线

      1. 先在互联网文本上预训练
      2. 再用大规模推理(如 Chain of Thought)
      3. 但第三步——像 self-play 那样持续自我博弈提升——还没有真正成熟

所以他的问题是:

为什么 self-play 在围棋、象棋、扑克里那么成功,但在 LLM 上没自然复制出来?

他的答案是:

因为很多人对 self-play 的理解,其实只适用于二人零和、完全信息游戏;一旦脱离这个范围,很多好性质都会消失。

 

你现在的“乱”,本质上是把两种不同的多 agent 混在一起了

第一种:高耦合协作型多 agent

特点是:

  • agent 之间要持续对齐上下文

  • 一个 agent 的决定会深度影响另一个 agent

  • 需要长链路协商、改计划、消冲突

  • 典型如复杂 coding、共享代码库修改、多人共同写同一份方案

这正是 Cognition 最警惕 的类型。

第二种:并行探索型多 agent

特点是:

  • 子任务相对独立

  • 每个 agent 只负责一个方向

  • 结果可被压缩成摘要交回主 agent

  • 典型如广度研究、并行检索、多视角分析、角色化 brainstorming

这正是 Anthropic 证明有效的类型。

 

这段课基本上在讲一条主线:

“多个 AI agent 放在一起,不只是能合作做事,还会出现竞争、欺骗、社交、群体文化这些更像‘社会行为’的现象。”

发现:

Tree结构也还不错。(也接近真是人类社会的组织结构)

Chain: 最差。

Mesh与Random是随着agent number增加而最好的。看来头脑风暴,充分的探讨往往能得到最佳的结果。

但到后面会 saturate(饱和)

image

 

 

Ref: Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | Predictable Noise in LLM Benchmarks by Sida Wang


很多论文:

  • 只提升 1%~3%

  • 但一些数据集的标准误差 ≈ 4%

👉 结论:

这些提升大概率是噪声

👉 最终观点

 

Small + Hard benchmark ≠ Reliable benchmark

 

2024 年,这个问题从“有人提醒”升级为“大家都在研究”。例如:

  • Investigating Data Contamination in Modern Benchmarks for Large Language Models 系统研究了现代 benchmark 的污染问题;

  • How Much are LLMs Contaminated? 做了更全面的 contamination survey;

  • LatestEval 这类工作则开始尝试做“更新鲜、减少污染”的评测方式。
    这说明社区已经不只是抱怨,而是在认真补救。

到了 2025 年前后,不少论文已经直接把这件事称作一种 evaluation crisis,也就是“评测危机”:不是模型不进步,而是我们越来越难确认它到底进步了多少、进步在哪里、是不是被 benchmark 误导了

 

 

Ref: Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | AI Agents to Automate Science by James Zou


The Virtual Lab

一个 Tree结构案例:

James Zou 不是说“让一个 GPT 去做科研”,而是说:

  • 先有一个 PI agent / 教授 agent

  • 再由它按任务需要,生成不同专长的 student agents

  • 这些 agent 会 组会、单聊、分工

  • 还可以去“上学”——也就是再学习、再专精

  • 最后结合外部科学工具去做真实研究

 

 

Paper2Agent

这部分非常有意思,而且我觉得你会特别喜欢。

James Zou 认为,论文 PDF 是一种非常被动的知识载体
你读完论文,往往还得:

  • 自己看代码

  • 自己配环境

  • 自己猜作者怎么跑

  • 自己改成适合你的任务

这就很低效。

所以 Paper2Agent 的想法是:

  • 把每篇论文,变成一个 能直接对话、还能调用论文工具链的 agent

Paper2Agent 的论文摘要明确写到:它会自动分析论文和相关代码库,用多个 agents 去构建一个 MCP server,再通过反复测试把这个 paper MCP 打磨稳固,然后把它接到聊天 agent 上,让用户可以直接自然语言调用这篇论文的工具和 workflow。

论文举的案例包括 ScanPyTISSUE、以及 AlphaGenome

用最通俗的话说:

以前是:论文 = 说明书

现在想变成:论文 = 可执行服务

也就是从:

  • “你去读我”
    变成了

  • “你直接调用我”

这其实就是你最近一直在理解的那条主线:

  • 知识不再只是文本,而是 agent 化、接口化、服务化。

 

不是“模型读不懂论文”,而是:模型没法稳定地把论文中的知识,转成可靠的可执行行为。

不要让一个 LLM 单枪匹马去“临场发挥”。

而是拆成多个更明确的子任务,让多个子 agent 各司其职,最后构造出一个稳健的 MCP server

 

 

posted @ 2026-03-17 13:08  郝壹贰叁  阅读(2)  评论(0)    收藏  举报