**RecursiveMAS的“潜空间军团”:多代理系统从“文本群聊”降维到13M参数递归循环,还是斯坦福+MIT+NVIDIA把协作彻底工程化的低成本幻觉?**
RecursiveMAS的“潜空间军团”:多代理系统从“文本群聊”降维到13M参数递归循环,还是斯坦福+MIT+NVIDIA把协作彻底工程化的低成本幻觉?
我直接点开了alphaxiv.org/abs/2604.25917(arXiv镜像,2026.4.28提交,ID 2604.25917)。标题《Recursive Multi-Agent Systems》,作者阵容亮眼:Xiyuan Yang、Jiaru Zou(并列一作,Jiaru Zou项目主导)、Rui Pan、Ruizhong Qiu、Pan Lu、Shizhe Diao、Jindong Jiang、Hanghang Tong、Tong Zhang、Markus J. Buehler、Jingrui He、James Zou。机构分布:UIUC(6人)、Stanford(2人)、NVIDIA(2人)、MIT(1人)。项目官网recursivemas.github.io直接挂出全部基准表和案例,GitHub repo(sentient-agi/ROMA)已5,027星。论文36页,核心观点一句话:把整个多代理系统当成单一的潜空间递归计算,用一个轻量RecursiveLink模块串联异构agent,中间只传latent state,最后一轮才解码成文本。
不是玄学“agent觉醒”,而是把“协作”从NLP层面的消息传递,硬生生工程化成了矩阵运算的闭环。数据说话,我把论文+官网所有关键数字拉出来,一目了然。
1. 技术架构:不是“大家轮流说话”,是“潜空间内循环+Inner-Outer双环训练”
RecursiveMAS把多代理系统视为一个统一体(unified latent-space recursive computation)。核心是RecursiveLink模块(两层残差线性层):
- Inner Link(agent内):( \mathcal{R}_{\text{in}}(h) = h + W_2 \sigma(W_1 h) )(GELU激活)
- Outer Link(跨agent):( \mathcal{R}_{\text{out}}(h) = W_3 h + W_2 \sigma(W_1 h) )(额外W3对齐维度)
残差连接保证梯度稳定(Theorem 1证明:( |\partial \mathcal{R}(h)/\partial h|_2 \geq \Omega(1 - \sqrt{(1/d_h) \log(1/\delta)}) ),而文本递归会衰减到O(ε))。
支持4种协作模式(Table 1):
- Sequential(Planner → Critic → Solver)
- Mixture(Math/Code/Science Specialist + Summarizer)
- Distillation(Expert → Learner)
- Deliberation(Reflector + Tool-Caller)
训练用Inner-Outer Loop:
- Inner loop:并行warm-start各agent,损失( \mathcal{L}{\text{in}} = 1 - \cos(\mathcal{R}{\text{in}}(H), \text{Emb}_\theta(y)) )
- Outer loop:展开n轮递归,CE损失优化整个系统,只在最后一轮解码。
理论复杂度对比(论文直接给公式):
- RecursiveMAS:( \Theta(N(md_h^2 + (t+m)d_h^2 + (t+m)^2 d_h)) )
- 传统文本MAS:( \Theta(N(m|V|d_h + (t+m)d_h^2 + (t+m)^2 d_h)) )
(d_h << |V|,所以latent运算天生更快)
所有agent基于开源小模型(Qwen3-1.7B到Qwen3.5-9B不等),总trainable参数仅13.12M(0.31%)。
2. 基准数据:+8.3%平均准确率,9个任务全线碾压
论文在9个基准(MATH500、AIME2025、AIME2026、GPQA-Diamond、LiveCodeBench-v6、MBPP Plus、MedQA、HotpotQA、Bamboogle)上测。r=3(递归深度3)时RecursiveMAS全胜。
主结果表(r=3,Scaled配置,官网Table):
| 方法 | MATH500 | AIME2025 | AIME2026 | GPQA-D | LiveCodeBench | MedQA | 平均提升 |
|---|---|---|---|---|---|---|---|
| Single Agent (LoRA) | 83.1 | 70.0 | 73.3 | 62.0 | 37.4 | 76.1 | - |
| Single Agent (Full-SFT) | 83.2 | 73.3 | 76.7 | 62.8 | 38.6 | 77.0 | - |
| MoA | 79.8 | 60.0 | 63.3 | 47.6 | 27.0 | 57.5 | - |
| TextGrad | 84.9 | 73.3 | 76.7 | 62.5 | 39.8 | 77.2 | - |
| LoopLM | 84.6 | 66.7 | 63.3 | 48.1 | 24.9 | 56.4 | - |
| Recursive-TextMAS | 85.8 | 73.3 | 73.3 | 61.6 | 38.7 | 77.0 | - |
| RecursiveMAS (ours) | 88.0 | 86.7 | 86.7 | 66.2 | 42.9 | 79.3 | +8.3% |
递归深度缩放(Table 2,Light/Scaled混合数据):
| 递归深度 r | MATH500 Acc. | AIME2025 Acc. | 时间倍数 | Token减少 |
|---|---|---|---|---|
| r=1 | 75.8 | 86.3 | 1.2× | 34.6% |
| r=2 | 76.6 | 87.1 | 1.9× | 65.5% |
| r=3 | 77.8 | 88.2 | 2.4× | 75.6% |
Ablation(RecursiveLink设计,Table 4):Res+2-Layer(ours)在MATH500上比1-Layer高3.6分,比Res+1-Layer高1.3分。
训练成本对比(Table 5):
| 方法 | Peak GPU Mem (GB) | Trainable Params | 估算成本 ($) | 平均Acc. |
|---|---|---|---|---|
| LoRA | 21.67 | 15.92M (0.37%) | 6.64 | 66.9 |
| Full-SFT | 41.40 | 4.21B (100%) | 9.67 | 68.6 |
| RecursiveMAS | 15.29 | 13.12M (0.31%) | 4.27 | 74.9 |
3. 蛛丝马迹:不是 emergent,而是可验证的工程闭环
- 作者背景:James Zou(Stanford,AI fairness/robustness领域老兵)、Markus J. Buehler(MIT,材料科学+AI生成)、NVIDIA两人(Shizhe Diao、Jindong Jiang)直接把硬件优化带进来。UIUC主导,典型顶会流水线。
- 开源痕迹:项目官网直接给case study(AIME几何题、MedQA中毒诊断、MBPP代码生成、Bamboogle搜索链),全用r=3演示。GitHub sentient-agi/ROMA已5k+星,说明社区已开始fork。
- 真实效率:token减少75.6%意味着推理时中间“思考”几乎不占显存;2.4× speedup来自latent << vocabulary size。论文还给梯度稳定定理,彻底堵死了“文本递归梯度爆炸”的老路。
- 局限:目前只测到r=3,小模型主导;大模型+更深递归还没公开数据。但缩放趋势已清晰:深度每+1,收益 compounding。
结论清晰而刺耳:RecursiveMAS不是“让agent们更会聊天”,而是理科生用13M参数+残差latent link把整个多代理系统压缩成可递归的矩阵运算。它证明:协作的本质可以从离散文本消息,彻底工程化为连续潜空间的迭代求精——成本只有Full-SFT的44%,速度2.4倍,准确率还高8.3%。当几百个、一千个这样的RecursiveMAS并行跑在真实任务上时,我们面对的不再是“多智能体社会模拟”,而是成千上万个潜空间军团在同步做矩阵乘法。
真正的深思点在这里:人类协作靠语言,代价是延迟和歧义;RecursiveMAS把代价变成了可控的深度和token预算。它把“群体智能”从社会学问题,变成了纯工程优化问题。数据不会骗人:未来最强的agent系统,可能根本不会互相“说话”,只会把彼此的latent state在黑暗的向量空间里循环炼化,直到最后一刻才吐出人类能读懂的答案。
下次看到某个多代理框架吹“自然协作”,先问它:你们是文本群聊,还是潜空间军团?RecursiveMAS已经把答案用88.0% MATH500和4.27美元训练成本写在纸上了。协作,从来不是魔法,而是可递归的代码。

浙公网安备 33010602011771号