JoyAgents-R1: Joint Evolution for Multi-LLM Agents with Reinforcement Learning 文章解读

JoyAgents-R1: Joint Evolution for Multi-LLM Agents with Reinforcement Learning

https://arxiv.org/pdf/2506.19846

“JoyAgents-R1”论文介绍了一种针对异构多大型语言模型（LLM）智能体的联合演化动力学框架，该框架利用强化学习来提升智能体的决策和记忆能力。为解决多智能体系统的采样效率低下和训练不稳定问题，该方法引入了节点式蒙特卡洛采样和边际效益驱动更新策略。此外，它还创新性地利用组相对策略优化（GRPO）奖励作为无成本的监督信号来自适应地更新智能体记忆。实验结果表明，该方法在通用和特定领域场景中，即使使用较小的开源模型，也能达到与大型LLM相媲美的性能。

名为 JoyAgents-R1 的新型多智能体强化学习（MARL）框架的文章概要和要点：

这篇文章提出了一种名为 JoyAgents-R1 的联合进化动力学框架，旨在解决异构多智能体强化学习中常见的合作效率低下和训练不稳定等挑战。该方法首次将**群体相对策略优化（GRPO）**应用于异构多智能体的联合训练中。

要点概括：

•

核心目标与创新

◦

解决多智能体挑战：JoyAgents-R1 专注于处理多智能体强化学习（MARL）中的异构智能体问题，特别是其训练不稳定和合作效率低下的难题。它旨在通过迭代优化智能体的大型语言模型（LLMs）记忆能力，实现最佳的决策和记忆平衡。

◦

首次应用GRPO于异构多智能体：这是首次将 GRPO 这种不依赖于评论家模型、通过群体相对优势选择动作的强化学习框架应用于通用异构多智能体的联合进化中。

•

关键技术与机制

◦

节点级蒙特卡洛采样 (Node-wise Monte Carlo sampling)：为了应对多智能体 GRPO 更新中轨迹指数级爆炸的问题，JoyAgents-R1 引入了节点级蒙特卡洛采样。这种方法通过在每个智能体的整个推理轨迹中顺序采样行为，将采样路径从乘法爆炸（G1 × G2 ... × Gk）变为加法累积（G1 + G2 + ... + Gk），从而显著提高了采样效率并稳定了奖励估计。

◦

边际效益驱动的选择策略 (Marginal benefit-driven selection strategy)：为了解决参数更新效率低的问题，该策略基于边际效益原则，识别并优先更新那些具有**最大奖励波动（即性能波动最大）**的 top-K 采样组中的智能体模型参数。这种方法在最小化计算成本的同时，最大化了联合收益，高效地指导了多智能体的参数更新。

◦

自适应记忆进化机制 (Adaptive memory evolution mechanism)：JoyAgents-R1 利用 GRPO 奖励作为“免费的监督信号”来更新智能体的记忆。这意味着智能体的决策模块和记忆模块可以同步优化，从而有效地减少重复推理并加速收敛。记忆更新会根据奖励阈值动态进行，并有淘汰机制以保持记忆质量和节省存储空间。

•

性能表现

◦

小模型媲美大模型：实验结果表明，JoyAgents-R1 基于更小的开源模型（如 Qwen2.5-3B），却能实现与大型 LLMs 相当的性能。

◦

在特定领域表现突出：尤其在**电商功能调用（E-commerce Function-Call）**子任务中，JoyAgents-R1 表现优于 DeepSeek-R1 和 DeepSeek-V3，并与 GPT-4o 差距很小。这表明在没有领域适应的情况下，传统先进模型在垂直领域的泛化能力有限，而针对性的架构和训练策略对于领域特定应用是可行的。

◦

胜过其他开源模型：该方法在整体性能上超越了参数更大的 Qwen-2.5 系列开源模型（7B、14B、32B），证明了其参数效率和强化学习框架的有效性。

◦

推理效率：效率奖励（RE）的引入对于平衡性能和计算成本至关重要，它惩罚了离轨迹终点较远的节点，鼓励更高效的决策步骤。

◦

“思考过程”和记忆模块的重要性：生成“思考过程”以及集成记忆模块都显著提升了模型的准确性，表明显式推理和记忆对于智能体决策和性能增强的不可或缺作用。

总而言之，JoyAgents-R1 提供了一种新颖且高效的解决方案，通过结合 GRPO 和创新的采样、更新及记忆机制，实现了异构多LLM智能体的联合进化，使得小型模型也能在复杂任务中达到卓越性能。

JoyAgents-R1 框架的算法流程可以总结如下，它主要围绕群组相对策略优化（GRPO）进行，并加入了多项创新机制以提升异构多智能体系统的合作效率和训练稳定性。

整个框架的流程是联合进化动态，旨在迭代优化智能体的LLMs和记忆能力，实现决策与记忆的最佳平衡。

一、核心架构：

•

分层多智能体系统： JoyAgents-R1 采用主代理（Master Agent）和多个子代理（Sub-agents）的分层架构。

◦

主代理：负责分析用户查询，编排子代理或工具（如问答、功能调用），并最终确定给用户的响应。

◦

子代理：专注于特定任务（例如问答、功能调用、数学计算），执行迭代操作，并将结果反馈给主代理进行后续规划。

•

ReAct模式与记忆集成：每个代理都以 ReAct (Reasoning and Acting) 方式执行，并动态从记忆中检索已验证的策略，以最小化重复推理和提高决策效率。

•

基于GRPO的策略优化： JoyAgents-R1 在训练期间采用 Group Relative Policy Optimization (GRPO) 进行策略优化，放弃了传统的价值函数（critic model），而是以群组相对优势的方式计算决策优势。这有助于解决异构智能体训练不稳定的问题。

二、针对多智能体系统的方差缩减GRPO：为了克服直接将GRPO应用于多智能体时面临的采样效率低和参数更新效率低等挑战，JoyAgents-R1 引入了以下关键机制：

节点级蒙特卡洛采样 (Node-wise Monte Carlo Sampling)：

◦

目的：解决多智能体GRPO更新中轨迹数量指数级爆炸的问题。

◦

流程：

▪

给定一个查询，首先生成一个初始长度为k的推理轨迹。

▪

然后，顺序地对轨迹中每个节点（即每个智能体）的行为进行采样。

▪

具体来说，对于每个智能体mi，在保持原始轨迹不变的情况下，采样(Gi - 1)个额外动作。

▪

这种方法将采样路径的总数从乘法（G1 × G2 × · · · × Gk）变为加法（G1 + G2 + · · · + Gk），从而显著提高了采样效率并稳定了奖励估计。

边际效益驱动的选择策略 (Marginal Benefit-driven Selection Strategy) 进行模型更新：

◦

目的：解决参数更新效率低的问题，并通过最小化计算成本来最大化联合收益。

◦

流程：

▪

首先计算每组采样轨迹的奖励（Ri）。

▪

基于边际效益原则，识别并优先更新那些具有最大奖励波动（即性能波动最大）top-K 采样组中的智能体模型参数。

▪

这种选择性更新方式确保了优化工作集中在最需要改进的区域，从而高效地引导多智能体参数更新。

▪

移除了原始GRPO目标中的KL惩罚项，以适应多智能体协调任务中策略的异构性和动态适应性，并节省内存。

动作奖励计算 (Action Rewards)：

◦

每个智能体动作的奖励 R 由三部分组成：R = RA + RF - RE。

▪

准确性奖励 (RA)：根据最终答案与真实值的一致性进行端到端计算（例如，问答和功能调用的语义相似度，数学问题的精确匹配）。

▪

格式奖励 (RF)：鼓励模型生成结构化的输出（如带有HTML标签的思考过程<think>和工具调用<tool_call>），以提高清晰度和推理能力。

▪

效率奖励 (RE)：对于轨迹中第j个节点，RE = (k-j)/k（其中k是轨迹长度）。这惩罚了距离轨迹终点较远的节点，鼓励更高效的决策步骤，平衡性能和计算成本。

三、自适应记忆进化机制 (Adaptive Memory Evolution Mechanism)：

•

目的：利用GRPO奖励作为“免费的监督信号”，实现智能体决策模块和记忆模块的同步优化，从而减少重复推理并加速收敛。

•

流程：

自适应奖励阈值设定：

▪

对所有采样的轨迹（不含效率奖励RE的RM = RA + RF）计算平均值 μ 和标准差 σ。

▪

设定上下限 L = μ - 1.96σ 和 U = μ + 1.96σ 作为记忆更新的阈值。

动态记忆更新 (Dynamic Memory Updating) (参照Algorithm 1)：

▪

新记忆插入：如果轨迹的最终奖励 RM 高于上限 U，则插入新的记忆条目 [19, Line 1-3]。

▪

召回记忆更新：对于每个被查询召回的记忆 Mi：

•

计算当前输出或规划与历史记忆的相似度 [19, Line 5]。

•

根据 RM 是否高于 U 或低于 L，更新记忆的时间戳和奖励差异 (∆t, ∆s) [19, Line 9-13]。

•

最终更新召回记忆的得分：RMi ← RMi + α∆t + β∆s [19, Line 15]。

•

其他未召回的记忆根据时间衰减更新。

记忆溢出处理 (Memory Overflow Handling)：

▪

当记忆条目的最终得分 RMi 低于预设阈值 D (实验中设为0) 或记忆容量超过上限且记忆的奖励排名较低时，记忆将被删除，以确保记忆质量和节省存储空间。

总结交互流程：系统接收用户查询，主代理分析并分配给合适的子代理。子代理根据自身专业能力，执行ReAct模式下的推理，过程中可以动态从自身记忆中检索信息。训练阶段，通过节点级蒙特卡洛采样生成多条轨迹，并计算细化的奖励。然后，基于边际效益原则，选择性能波动最大的top-K智能体进行参数更新。同时，GRPO获得的奖励信号被“免费”用于记忆的动态更新和进化，表现好的记忆得以保留和强化，表现差的记忆则被淘汰。这种协同优化使得每个智能体的决策和记忆能力都得到提升，最终实现整个多智能体系统的联合进化和性能优化。

posted @ 2025-07-08 19:45 bonelee 阅读(49) 评论(0) 收藏举报

刷新页面返回顶部

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

JoyAgents-R1: Joint Evolution for Multi-LLM Agents with Reinforcement Learning 文章解读

JoyAgents-R1: Joint Evolution for Multi-LLM Agents with Reinforcement Learning

公告