打赏

**RecursiveMAS的“潜空间军团”:多代理系统从“文本群聊”降维到13M参数递归循环,还是斯坦福+MIT+NVIDIA把协作彻底工程化的低成本幻觉?**

RecursiveMAS的“潜空间军团”:多代理系统从“文本群聊”降维到13M参数递归循环,还是斯坦福+MIT+NVIDIA把协作彻底工程化的低成本幻觉?

我直接点开了alphaxiv.org/abs/2604.25917(arXiv镜像,2026.4.28提交,ID 2604.25917)。标题《Recursive Multi-Agent Systems》,作者阵容亮眼:Xiyuan Yang、Jiaru Zou(并列一作,Jiaru Zou项目主导)、Rui Pan、Ruizhong Qiu、Pan Lu、Shizhe Diao、Jindong Jiang、Hanghang Tong、Tong Zhang、Markus J. Buehler、Jingrui He、James Zou。机构分布:UIUC(6人)、Stanford(2人)、NVIDIA(2人)、MIT(1人)。项目官网recursivemas.github.io直接挂出全部基准表和案例,GitHub repo(sentient-agi/ROMA)已5,027星。论文36页,核心观点一句话:把整个多代理系统当成单一的潜空间递归计算,用一个轻量RecursiveLink模块串联异构agent,中间只传latent state,最后一轮才解码成文本。

不是玄学“agent觉醒”,而是把“协作”从NLP层面的消息传递,硬生生工程化成了矩阵运算的闭环。数据说话,我把论文+官网所有关键数字拉出来,一目了然。

1. 技术架构:不是“大家轮流说话”,是“潜空间内循环+Inner-Outer双环训练”

RecursiveMAS把多代理系统视为一个统一体(unified latent-space recursive computation)。核心是RecursiveLink模块(两层残差线性层):

  • Inner Link(agent内):( \mathcal{R}_{\text{in}}(h) = h + W_2 \sigma(W_1 h) )(GELU激活)
  • Outer Link(跨agent):( \mathcal{R}_{\text{out}}(h) = W_3 h + W_2 \sigma(W_1 h) )(额外W3对齐维度)

残差连接保证梯度稳定(Theorem 1证明:( |\partial \mathcal{R}(h)/\partial h|_2 \geq \Omega(1 - \sqrt{(1/d_h) \log(1/\delta)}) ),而文本递归会衰减到O(ε))。

支持4种协作模式(Table 1):

  • Sequential(Planner → Critic → Solver)
  • Mixture(Math/Code/Science Specialist + Summarizer)
  • Distillation(Expert → Learner)
  • Deliberation(Reflector + Tool-Caller)

训练用Inner-Outer Loop

  • Inner loop:并行warm-start各agent,损失( \mathcal{L}{\text{in}} = 1 - \cos(\mathcal{R}{\text{in}}(H), \text{Emb}_\theta(y)) )
  • Outer loop:展开n轮递归,CE损失优化整个系统,只在最后一轮解码。

理论复杂度对比(论文直接给公式):

  • RecursiveMAS:( \Theta(N(md_h^2 + (t+m)d_h^2 + (t+m)^2 d_h)) )
  • 传统文本MAS:( \Theta(N(m|V|d_h + (t+m)d_h^2 + (t+m)^2 d_h)) )
    (d_h << |V|,所以latent运算天生更快)

所有agent基于开源小模型(Qwen3-1.7B到Qwen3.5-9B不等),总trainable参数仅13.12M(0.31%)

2. 基准数据:+8.3%平均准确率,9个任务全线碾压

论文在9个基准(MATH500、AIME2025、AIME2026、GPQA-Diamond、LiveCodeBench-v6、MBPP Plus、MedQA、HotpotQA、Bamboogle)上测。r=3(递归深度3)时RecursiveMAS全胜。

主结果表(r=3,Scaled配置,官网Table)

方法 MATH500 AIME2025 AIME2026 GPQA-D LiveCodeBench MedQA 平均提升
Single Agent (LoRA) 83.1 70.0 73.3 62.0 37.4 76.1 -
Single Agent (Full-SFT) 83.2 73.3 76.7 62.8 38.6 77.0 -
MoA 79.8 60.0 63.3 47.6 27.0 57.5 -
TextGrad 84.9 73.3 76.7 62.5 39.8 77.2 -
LoopLM 84.6 66.7 63.3 48.1 24.9 56.4 -
Recursive-TextMAS 85.8 73.3 73.3 61.6 38.7 77.0 -
RecursiveMAS (ours) 88.0 86.7 86.7 66.2 42.9 79.3 +8.3%

递归深度缩放(Table 2,Light/Scaled混合数据):

递归深度 r MATH500 Acc. AIME2025 Acc. 时间倍数 Token减少
r=1 75.8 86.3 1.2× 34.6%
r=2 76.6 87.1 1.9× 65.5%
r=3 77.8 88.2 2.4× 75.6%

Ablation(RecursiveLink设计,Table 4):Res+2-Layer(ours)在MATH500上比1-Layer高3.6分,比Res+1-Layer高1.3分。

训练成本对比(Table 5):

方法 Peak GPU Mem (GB) Trainable Params 估算成本 ($) 平均Acc.
LoRA 21.67 15.92M (0.37%) 6.64 66.9
Full-SFT 41.40 4.21B (100%) 9.67 68.6
RecursiveMAS 15.29 13.12M (0.31%) 4.27 74.9

3. 蛛丝马迹:不是 emergent,而是可验证的工程闭环

  • 作者背景:James Zou(Stanford,AI fairness/robustness领域老兵)、Markus J. Buehler(MIT,材料科学+AI生成)、NVIDIA两人(Shizhe Diao、Jindong Jiang)直接把硬件优化带进来。UIUC主导,典型顶会流水线。
  • 开源痕迹:项目官网直接给case study(AIME几何题、MedQA中毒诊断、MBPP代码生成、Bamboogle搜索链),全用r=3演示。GitHub sentient-agi/ROMA已5k+星,说明社区已开始fork。
  • 真实效率:token减少75.6%意味着推理时中间“思考”几乎不占显存;2.4× speedup来自latent << vocabulary size。论文还给梯度稳定定理,彻底堵死了“文本递归梯度爆炸”的老路。
  • 局限:目前只测到r=3,小模型主导;大模型+更深递归还没公开数据。但缩放趋势已清晰:深度每+1,收益 compounding。

结论清晰而刺耳:RecursiveMAS不是“让agent们更会聊天”,而是理科生用13M参数+残差latent link把整个多代理系统压缩成可递归的矩阵运算。它证明:协作的本质可以从离散文本消息,彻底工程化为连续潜空间的迭代求精——成本只有Full-SFT的44%,速度2.4倍,准确率还高8.3%。当几百个、一千个这样的RecursiveMAS并行跑在真实任务上时,我们面对的不再是“多智能体社会模拟”,而是成千上万个潜空间军团在同步做矩阵乘法

真正的深思点在这里:人类协作靠语言,代价是延迟和歧义;RecursiveMAS把代价变成了可控的深度和token预算。它把“群体智能”从社会学问题,变成了纯工程优化问题。数据不会骗人:未来最强的agent系统,可能根本不会互相“说话”,只会把彼此的latent state在黑暗的向量空间里循环炼化,直到最后一刻才吐出人类能读懂的答案。

下次看到某个多代理框架吹“自然协作”,先问它:你们是文本群聊,还是潜空间军团?RecursiveMAS已经把答案用88.0% MATH500和4.27美元训练成本写在纸上了。协作,从来不是魔法,而是可递归的代码。

posted @ 2026-05-02 08:27  gyc567  阅读(26)  评论(0)    收藏  举报