DynamicGSG ：一种利用动态高斯场景图，实现机器人环境自适应的方法 - MKT-porter

DynamicGSG ：一种利用动态高斯场景图，实现机器人环境自适应的方法

传感器输入与VIO ：系统接收实时的RGB-D图像流，并通过一个视觉惯性里程计（VIO）模块（如VINS-Fusion）来获取初始的相机位姿。
开放词汇实例识别 ：利用YOLO-World, SAM, CLIP等强大的视觉基础模型，系统从每一帧图像中检测和分割出开放词汇的物体实例，并提取它们的语义特征。
3D-2D高斯物体关联/融合 ：这是核心步骤之一。系统会将地图中已有的3D高斯物体，渲染到当前视角下，生成2D的物体掩码和特征。然后，通过一个几何与语义的联合相似度匹配，将当前帧检测到的2D物体与地图中的3D物体进行关联。
高斯初始化/实例特征生成 ：对于匹配上的物体，信息进行融合；对于新出现的物体，则初始化一组新的高斯基元来表示它。同时，为每个物体的高斯基元赋予一个唯一的实例特征（Instance Feature），用于后续的正则化。
联合优化 ：通过一个包含RGB损失、深度损失和创新的特征损失（Feature Loss）的联合损失函数，对高斯地图进行优化。
场景图构建与动态更新 ：基于优化好的物体级高斯地图，利用大型视觉语言模型（LVLM）分析物体间的空间和语义关系，构建分层的场景图。在动态场景中，系统会检测变化并对高斯地图和场景图进行局部更新。

核心技术一

如何确保当前帧看到的“杯子A”，就是地图里那个“杯子A”？

图3 ：3D-2D高斯物体关联

解读：这个关联过程分为两步：

几何相似度（Geometric Similarity） ：计算当前检测到的2D物体掩码，与地图中3D物体渲染出的2D掩码之间的交并比（IoU）。
语义相似度（Semantic Similarity） ：计算当前检测到的物体的CLIP特征，与地图中物体的CLIP特征之间的余弦相似度。
联合匹配 ：通过加权求和这两种相似度，得到一个联合得分，从而实现更鲁棒的物体关联。

核心技术二

如何确保属于同一个物体的高斯基元“抱团”，而不侵入到邻近物体的区域？

公式 (11) ：特征损失 (Feature Loss)

解读：在传统的3DGS-SLAM中，监督信号只有RGB和Depth。DynamicGSG创新性地引入了第三个监督信号：实例特征图（Instance Feature Map）。

系统为每一个物体实例（比如，sofa_1）分配一个唯一的、固定的低维特征向量（可以理解为一个独特的“颜色”）。
在2D图像上，根据物体分割结果，可以得到一个“真值”实例特征图。
在渲染时，除了渲染RGB和Depth，系统还利用高斯基元上附带的实例特征，渲染出一个预测的实例特征图（公式5）。
的作用就是让渲染出的实例特征图与真值保持一致。这相当于一个强大的正则项，它强制要求“属于沙发的高斯们，你们渲染出来的特征必须都是沙发特征”，从而有效地防止了不同物体之间的边界模糊和“串色”问题。

图4 ：特征损失消融实验的可视化

解读：这张图直观地展示了特征损失的巨大作用。在没有特征损失时（w/o feature loss），渲染出的实例分割图（中间一行）中，不同物体（如沙发和靠垫）的边界处出现了大量颜色错误的像素，说明高斯基元的归属发生了混乱。而在加入特征损失后（DynamicGSG），渲染出的实例分割图（上一行）边界清晰，与真值（Ground truth）几乎一致。

实验成果与评估分析

DynamicGSG在语义分割、语言引导的对象检索和场景重建等多个任务上都取得了SOTA性能。

1. 3D开放词汇语义分割

表1 ：Replica数据集上的3D语义分割性能

解读：该表对比了不同方法在Replica数据集上的3D语义分割精度。

结果：DynamicGSG在平均准确率（mAcc）和平均交并比（mIoU）两项核心指标上，都显著超越了所有基线方法。其mIoU达到了**31.06%**，远高于ConceptGraphs的25.57%。
结论：这证明了其3D-2D联合关联策略和特征损失的有效性，能够实现更精确的物体实例分组。

2. 语言引导的对象检索

表2 ：Replica数据集上的对象检索性能

解读：这个实验评估了系统根据自然语言查询定位物体的能力。

结果：在“描述性”查询中，利用DynamicGSG构建的层级场景图进行检索（HSG），其召回率（R@1达到0.71）远高于仅使用CLIP或LLM的基线方法。在更复杂的“功能性”（Affordance）和“否定性”（Negation）查询中，其性能同样领先。
定性分析（图5） ：当查询“一个柜子上的咖啡壶”时，ConceptGraphs等方法由于无法理解“在...上”这种空间关系而失败，而DynamicGSG能够利用其层级场景图成功定位。

3. 动态场景更新

图6 ：动态更新的可视化

表5 ：真实世界动态更新成功率

解读：这是最能体现DynamicGSG“动态”特性的实验。研究人员在真实实验室中手动改变场景（如拿走背包、移动桌子、交换书本位置等）。

结果：系统能够可靠地检测到这些变化，并对高斯地图和场景图进行相应的局部更新。总体成功率达到了88.8%（表5）。例如，在（a）中，系统成功检测到背包和垃圾桶的消失，并从地图中移除了它们。在（b）中，系统检测到桌子和其上所有物品的整体移动。
结论：这证明了DynamicGSG leveraging 3DGS的快速渲染和训练能力，使其能够有效地、实时地适应真实世界的动态变化。

总结

DynamicGSG的出现，是场景理解领域的一个重要里程碑。它成功地将现代计算机视觉的两大支柱——强大的视觉基础模型和高效的3D高斯溅射——与机器人学中经典的场景图概念进行了深度融合，并赋予了其前所未有的动态适应能力。

通过创新的3D-2D联合关联策略和实例特征损失，DynamicGSG解决了在3DGS上进行精确物体级分割和分组的核心难题。更重要的是，它利用3DGS的显式和高效特性，真正实现了一个能够与物理世界保持同步的“活地图”，让机器人不仅能“看懂”世界，更能“看清”世界的变化。这项工作为机器人在复杂、动态、长时程的人类环境中执行任务，铺平了坚实的道路。

文章地址：https://arxiv.org/pdf/2502.15309

敬请期待我们的下一篇文章！欢迎加入我们关于SLAM&大模型&Agent&具身智能学术交流群。

点击订阅公众号 | 前沿机器人学术成果每日更新

SLAM专栏第53篇文章 | 欢迎点赞推荐关注

SLAM专栏

注：本公众号发布的内容仅用于信息传递与知识分享，不保证绝对准确，也不构成专业建议。因使用内容造成的任何损失，我们概不负责。若公众号含外部链接，链接内容及运营不受我们控制，由此产生的风险和损失，读者自行承担。此外，原创内容版权归本号所有。因不可抗力、技术故障等致内容异常，本号同样免责。阅读即视为同意本声明，如有侵权，联系删除。

SLAM文献荐读 · 目录

上一篇DQO-MAP ：一种融合对偶二次曲面与高斯溅射，实现多物体实时位姿估计与重建的方法下一篇SiLVR ：一种融合激光雷达与视觉，并量化不确定性的大规模NeRF重建方法

阅读 146

Green生态智能机器人

复制搜一搜

posted on 2025-11-28 04:36 MKT-porter 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部