【Week 52, 2025】每周阅读三篇论文
Paper 1: DNN Task Assignment in UAV Networks: A Generative AI-Enhanced Multiagent Reinforcement Learning Approach
摘要
论文信息
- 标题:DNN Task Assignment in UAV Networks: A Generative AI-Enhanced Multiagent Reinforcement Learning Approach
- 作者 / 单位:Xin Tang , Qian Chen , Wenjie Weng, Binhan Liao, Jiacheng Wang , Xianbin Cao , Senior Member, IEEE, and Xiaohuan Li , Member, IEEE
- 来源:IEEE INTERNET OF THINGS JOURNAL, VOL. 12, NO. 10, 15 MAY 2025
- 原文链接:https://ieeexplore.ieee.org/document/10884737
背景和贡献
- 问题是一个UAV集群,leader带着follower去完成一系列需要DNN的任务(例如yolo识别),并且每个DNN任务可以分散到集群里面去做。如何做任务顺序规划和DNN内任务分割与分配?
方法
- 用Greedy的方法确定DNN任务访问顺序,用一个GDM-MADDPG去解决DNN的分割分配
- 对于考虑的MDP问题,把Actor网络用一个GDM去代替,输出各个agent去执行任务的概率

结果和评价
- 用Diffusion Model去集中式地解决了任务分配,但是这个任务之间没有约束的存在,只牵扯一个分割,并不考虑约束。
Paper 2: IS CONDITIONAL GENERATIVE MODELING ALL YOU NEED FOR DECISION-MAKING?
把“学策略”改写成“学一个能按条件生成轨迹的生成模型”:条件扩散模型直接生成未来状态序列,用“生成出来的高回报轨迹”来做决策
论文信息
- 标题:IS CONDITIONAL GENERATIVE MODELING ALL YOU NEED FOR DECISION-MAKING?
- 作者 / 单位:Anurag Ajay∗ †§¶, Yilun Du §¶, Abhi Gupta‡§¶, Joshua Tenenbaum¶, Tommi Jaakkola‡§¶, Pulkit Agrawal†§
- 来源:ICLR 2023
- 原文链接:
背景和贡献
- 条件生成模型(Conditional Generative Model)可以把数据集中很多的小次优轨迹段拼接起来,还能够满足全部约束
- 希望从固定数据集中“拼接/缝合”许多带回报标注但次优的轨迹片段,形成更优轨迹;传统离线RL往往依赖价值函数与动态规划做轨迹拼接,但价值估计在离线场景易不稳定。
- 将决策问题直接表述为条件生成建模,把策略建成“回报条件的扩散模型”,从而绕开动态规划并简化离线RL的复杂性,同时还能把条件从“回报”扩展到“约束、技能”,实现测试时的多约束组合与技能组合
方法
- 状态序列扩散建模(不直接扩散动作)
- 采样时用 classifier-free guidance 强化条件信号,并配合低温采样提高生成序列质量,从数据分布中“抽取”更优行为片段。
- 逆动力学把计划落到动作,并滚动执行:仅生成状态不够执行控制,因此学习逆动力学推出动作

Paper 3: Graph Diffusion for Robust Multi-Agent Coordination
在Graph上进行加噪去噪过程
论文信息
- 标题:Graph Diffusion for Robust Multi-Agent Coordination
- 作者 / 单位:Xianghua Zeng 1 Hang Su∗ 2 Zhengyi Wang 2 Zhiyuan Lin 2
- 来源:Proceedings of the 42 nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
- 原文链接:
背景和贡献
- 环境动态变化(智能体属性变化/失效)会导致“协作结构分布外”,仅生成动作难以保持协调
- 提出 MCGD,把多智能体决策表示为协作图,并**联合生成协作结构(边,离散)与动作(点,连续)以增强鲁棒性。
方法
- 协作图:节点特征为各智能体动作,边表示协作关系
- 双扩散建模:边用 categorical diffusion(学习结构变化),节点用各向异性扩散(噪声与邻居相关,反映协作上下文)
- 执行时先用离线学得的 Q 函数做价值引导初始化,再逐步去噪得到当前一步联合动作;支持去中心化执行

结果和评价
- 在图上进行加噪和去噪

浙公网安备 33010602011771号