IROS 2025|NOKOV度量动捕助力多智能体深度强化学习算法实现Crazyflie无人机在复杂环境中协同追逐
导语:多智能体无人机协同追逐如何在真实环境中验证?
在多智能体无人机协同控制研究中,复杂环境下追逐-逃避任务的真实实验验证始终是机器人领域的关键难点。在 IROS 2025 上,国防科技大学智能科学学院周晗老师团队提出了一种知识增强多智能体深度强化学习方法,并通过仿真与真实物理实验验证了算法性能。
在真实实验阶段,NOKOV度量动作捕捉系统为多架 Crazyflie 无人机提供了高精度位置与速度数据,成为算法落地验证的关键基础设施。
一、研究背景:为什么多智能体追逐任务需要动作捕捉?
为增强多智能体系统在协同追逐任务中的自主性和适应性,无模型深度强化学习(DRL)受到了广泛关注。
然而,大多数现有方法:
- 依赖个体奖励
- 在复杂、障碍密集环境中表现不佳
- 缺乏真实物理实验支撑
因此,需要一种既能提升协同能力、又能在真实环境中验证的解决方案,而这离不开高精度无人机位姿获取手段。
在本文实验中,NOKOV度量动作捕捉系统为无人机集群实验提供了可靠的数据基础。
二、研究方法概述:动作捕捉助力验证KE-MATD3算法

合作追逐任务的系统框架。(a) 多智能体追逐-逃避环境。(b) 本文提出的 KE-MATD3 算法。
1、KE-MATD3 算法核心思想
论文提出了一种 基于团队奖励的知识增强多智能体延迟深度确定性策略梯度算法(KE-MATD3),主要贡献包括:
- 将多智能体追逐任务建模为 去中心化部分可观测马尔可夫决策过程
- 引入 知识增强机制(KE),融合改进人工势场法(IAPF)经验
- 促进追逐者之间的协作行为涌现
2、动作捕捉在方法验证中的作用
在真实实验中,算法并不直接依赖 GPS 或机载视觉,而是通过 NOKOV度量动作捕捉系统:
- 实时输出 Crazyflie 无人机 高精度位置与速度
- 通过 ROS 实时传输至机载计算机
- 为多智能体强化学习策略执行提供准确状态输入
三、实验验证
1、实验验证一:数值仿真实验结果
在数值模拟中,KE-MATD3 算法与多种基线方法(MATD3、MADDPG、MADDQN 等)进行了系统对比。
实验结果表明:
- 知识增强机制显著提升学习效率
- 在捕获成功率和碰撞率方面均取得最优结果
- 在不同障碍物密度下保持稳定性能
这些结果为后续 NOKOV度量动作捕捉支持的真实实验奠定了理论基础。
2、实验验证二:NOKOV度量动作捕捉支持的真实世界实验
(1)实验环境搭建
真实实验在 6.4 × 11 × 2 m 的室内场地中进行,系统组成包括:
|
实验要素 |
配置说明 |
|
无人机 |
5 架 Crazyflie 2.1 |
|
动作捕捉 |
NOKOV度量光学动作捕捉系统 |
|
障碍物 |
20 个圆柱体(半径 20 cm,高 1 m) |
|
通信 |
ROS 实时数据传输 |
(2)动作捕捉数据作用
NOKOV度量动作捕捉系统在实验中:
实时捕捉多架无人机三维位姿
输出高频、低延迟的位置与速度数据
确保多智能体策略在真实环境中稳定执行
(3)物理实验结果
真实实验表明:
- 算法可安全、高效完成捕获任务
- 追逐者之间出现明显的 涌现式协同行为
- 动作捕捉系统保障了实验的可重复性与可量化分析

物理实验结果
四、应用场景:从科研到无人系统集群验证
结合本研究,NOKOV度量动作捕系统捉可广泛应用于:
- 无人机集群协同决策研究
- 多智能体强化学习真实验证
- 机器人群体智能实验平台
五、结论:NOKOV度量动作捕捉在多智能体科研中的价值
本研究通过 IROS 2025 的真实案例表明:
- 高水平多智能体算法可通过动作捕捉系统获取真实数据,进行真实实验验证
- NOKOV度量动作捕捉系统为无人机集群提供了关键的位姿与速度数据支
- 动作捕捉真实数据是连接强化学习算法与物理世界的重要桥梁
在多智能体无人系统研究中,NOKOV度量动作捕捉正成为实验验证的重要基础设施之一。
六、关于多智能体深度强化学习算法研究的FAQ
Q1:什么是多智能体深度强化学习(MADRL)?
A1:多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning, MADRL)是一类用于解决多个智能体在共享环境中协同或对抗决策问题的学习方法。
在 IROS 2025 论文中,Crazyflie 无人机集群被建模为多个追逐者,通过 MADRL 学习在复杂障碍环境中的协同追逐策略,而真实实验中的状态信息由 NOKOV度量动作捕捉系统提供。
Q2:多智能体强化学习与单智能体强化学习的核心区别是什么?
A2:与单智能体强化学习相比,多智能体强化学习面临三大挑战:
- 环境非平稳性:其他智能体策略不断变化
- 协同与博弈并存:需要学习团队级行为
- 观测受限:个体无法获取全局状态
在 IROS 2025 的研究中,通过**团队奖励机制 + 知识增强策略(KE-MATD3)**缓解上述问题,并借助 NOKOV度量动作捕捉确保真实实验中状态观测的准确性。
Q3:多智能体强化学习实验对位姿获取精度有什么要求?
A3:多智能体强化学习对状态输入极其敏感,尤其在:
- 碰撞避免
- 协同包围
- 追逃策略切换
等场景中,对位姿误差容忍度极低。
在 IROS 2025 的 Crazyflie 实验中,NOKOV度量动作捕捉系统提供了高频、低延迟、高精度的三维位姿与速度数据,为算法验证提供了可靠保障。
Q4:动作捕捉系统在多智能体强化学习中扮演什么角色?
A4:在多智能体深度强化学习实验中,动作捕捉系统相当于:
- 高精度“全局传感器”
- 状态真值(Ground Truth)提供者
- 算法性能评估基准
IROS 2025 研究中,NOKOV度量动作捕捉系统不仅支撑了 Crazyflie 无人机的在线控制,也为多智能体协同行为分析提供了可信数据来源。
Q5:多智能体强化学习未来的研究趋势是什么?
A5:从 IROS 2025 等顶级会议趋势来看,MADRL 研究正向以下方向发展:
- 从仿真走向真实系统验证
- 从小规模走向大规模集群
- 从规则设计走向知识增强学习
在这一过程中,像 NOKOV度量动作捕捉这样的高精度实验基础设施,将持续成为多智能体强化学习研究不可或缺的组成部分。
七、论文信息
作者介绍
孙懿豪,国防科技大学智能科学学院,博士研究生,主要研究方向为无人机集群分布式决策技术
闫超,南京航空航天大学自动化学院,副研究员,博士,主要研究方向为深度学习、多智能体强化学习、无人集群协同控制与智能决策
周晗,国防科技大学智能科学学院,副教授,博士,主要研究方向为无人系统协同控制
相晓嘉,国防科技大学智能科学学院,研究员,博士生导师,主要研究方向为无人系统技术
姜杰,中国运载火箭技术研究院,中国科学院院士,博士生导师,主要研究方向为导航制导与控制、运载火箭总体设计

浙公网安备 33010602011771号