在这里插入图片描述

第四章 基于深度强化学习的智能轨迹规划

在精确定位的基础上,如何让机器人自主地从A点移动到B点,同时避开障碍物、满足运动学约束并优化某个性能指标(如路径最短、运动最平滑),这就是轨迹规划问题。本章将阐述如何利用DRL和模仿学习构建一个智能的在线轨迹规划器。

4.1 规划问题建模

我们将轨迹规划问题建模为一个MDP:

  • 环境:具备手术机器人模型、患者解剖模型(可从术前CT/MRI重建并弹性化)、目标点。
  • 智能体:手术机器人控制器。
  • 状态空间 SSS:需要全面描述当前环境。S={ Ptool,Vtool,Oobstacles,Ptarget,Ctask}S = \{P_{tool}, V_{tool}, O_{obstacles}, P_{target}, C_{task}\}S={ Ptool,Vtool,Oobstacles,Ptarget,Ctask}
    • PtoolP_{tool}Ptool:工具当前位姿(来自第三章的定位模块)。
    • VtoolV_{tool}Vtool:器具当前速度。
    • OobstaclesO_{obstacles}Oobstacles:障碍物信息。可以是点云、体素网格,或由CNN编码的特征向量。
    • PtargetP_{target}Ptarget:目标点/区域。
    • CtaskC_{task}Ctask:当前任务的上下文信息(如“缝合”、“切割”)。
  • 动作空间 AAA通过:智能体输出的控制指令。能够是高维的连续动作:
    • 关节空间控制:每个关节的目标速度或力矩。at=(q˙1,q˙2,...,q˙n)a_t = (\dot{q}_1, \dot{q}_2, ..., \dot{q}_n)at=(q˙1,q˙2,...,q˙n)
    • 笛卡尔空间控制:末端执行器的期望速度旋量。at=(vx,vy,vz,ωx,ωy,ωz)a_t = (v_x, v_y, v_z, \omega_x, \omega_y, \omega_z)at=(vx,vy,vz,ωx,ωy,ωz)。大家选择笛卡尔空间控制,源于它更直观,且能绕过复杂的IK求解。
  • 奖励函数 RRRDRL设计的核心,需要精心设计以引导智能体学习期望的行为。就是:这
4.2 混合学习框架:模仿学习 + 深度强化学习

不可接受的(试错成本高)。模仿学习提供了一个解决方案。就是纯粹的DRL训练,尤其是从零开始(Tabula Rasa)训练,必须海量的与环境交互的尝试,这在手术场景中

4.2.1 行为克隆预训练
  1. 数据收集:记录专家外科医生在模拟器或真实手术中完成的执行数据。每一条资料是:(st,at)(s_t, a_t)(st,at),即专家在状态sts_tst下采取的动作ata_tat
  2. 模型训练:训练一个神经网络(策略网络πθ(a∣s)\pi_{\theta}(a|s)πθ(as)最小化其输出动作与专家动作的差异。就是)来模仿专家的行为。目标
    • LBC(θ)=E(st,at)∼Dexpert[∣∣πθ(st)−at∣∣2]L_{BC}(\theta) = \mathbb{E}_{(s_t, a_t) \sim D_{expert}}[||\pi_{\theta}(s_t) - a_t||^2]LBC(θ)=E(st,at)Dexpert[∣∣πθ(st)at2]
  3. 作用:BC训练得到的策略网络,已经学会了专家的“基本操作范式”,为后续的DRL训练提供了一个非常好的“热启动”,大大加快了收敛速度,并避免了初期随机的、危险的动作。