• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
MKT-porter
博客园    首页    新随笔    联系   管理    订阅  订阅
DynamicGSG :一种利用动态高斯场景图,实现机器人环境自适应的方法

image

 

image

 

  1. 传感器输入与VIO :系统接收实时的RGB-D图像流,并通过一个视觉惯性里程计(VIO)模块(如VINS-Fusion)来获取初始的相机位姿。
  2. 开放词汇实例识别 :利用YOLO-World, SAM, CLIP等强大的视觉基础模型,系统从每一帧图像中检测和分割出开放词汇的物体实例,并提取它们的语义特征。
  3. 3D-2D高斯物体关联/融合 :这是核心步骤之一。系统会将地图中已有的3D高斯物体,渲染到当前视角下,生成2D的物体掩码和特征。然后,通过一个几何与语义的联合相似度匹配,将当前帧检测到的2D物体与地图中的3D物体进行关联。
  4. 高斯初始化/实例特征生成 :对于匹配上的物体,信息进行融合;对于新出现的物体,则初始化一组新的高斯基元来表示它。同时,为每个物体的高斯基元赋予一个唯一的实例特征(Instance Feature),用于后续的正则化。
  5. 联合优化 :通过一个包含RGB损失、深度损失和创新的特征损失(Feature Loss)的联合损失函数,对高斯地图进行优化。
  6. 场景图构建与动态更新 :基于优化好的物体级高斯地图,利用大型视觉语言模型(LVLM)分析物体间的空间和语义关系,构建分层的场景图。在动态场景中,系统会检测变化并对高斯地图和场景图进行局部更新。

核心技术一

如何确保当前帧看到的“杯子A”,就是地图里那个“杯子A”?

图片

图3 :3D-2D高斯物体关联

解读 :这个关联过程分为两步 :

  • 几何相似度(Geometric Similarity) :计算当前检测到的2D物体掩码,与地图中3D物体渲染出的2D掩码之间的交并比(IoU)。
  • 语义相似度(Semantic Similarity) :计算当前检测到的物体的CLIP特征,与地图中物体的CLIP特征之间的余弦相似度。
  • 联合匹配 :通过加权求和这两种相似度,得到一个联合得分,从而实现更鲁棒的物体关联。

核心技术二

如何确保属于同一个物体的高斯基元“抱团”,而不侵入到邻近物体的区域?

公式 (11) :特征损失 (Feature Loss)

  • 解读 :在传统的3DGS-SLAM中,监督信号只有RGB和Depth。DynamicGSG创新性地引入了第三个监督信号 :实例特征图(Instance Feature Map)。
    • 系统为每一个物体实例(比如,sofa_1)分配一个唯一的、固定的低维特征向量(可以理解为一个独特的“颜色”)。
    • 在2D图像上,根据物体分割结果,可以得到一个“真值”实例特征图。
    • 在渲染时,除了渲染RGB和Depth,系统还利用高斯基元上附带的实例特征,渲染出一个预测的实例特征图(公式5)。
    • 的作用就是让渲染出的实例特征图与真值保持一致。这相当于一个强大的正则项,它强制要求“属于沙发的高斯们,你们渲染出来的特征必须都是沙发特征”,从而有效地防止了不同物体之间的边界模糊和“串色”问题。
图片

图4 :特征损失消融实验的可视化

解读 :这张图直观地展示了特征损失的巨大作用。在没有特征损失时(w/o feature loss),渲染出的实例分割图(中间一行)中,不同物体(如沙发和靠垫)的边界处出现了大量颜色错误的像素,说明高斯基元的归属发生了混乱。而在加入特征损失后(DynamicGSG),渲染出的实例分割图(上一行)边界清晰,与真值(Ground truth)几乎一致。

实验成果与评估分析

DynamicGSG在语义分割、语言引导的对象检索和场景重建等多个任务上都取得了SOTA性能。

1. 3D开放词汇语义分割

表1 :Replica数据集上的3D语义分割性能

图片

解读 :该表对比了不同方法在Replica数据集上的3D语义分割精度。

  • 结果 :DynamicGSG在平均准确率(mAcc)和平均交并比(mIoU)两项核心指标上,都显著超越了所有基线方法。其mIoU达到了**31.06%**,远高于ConceptGraphs的25.57%。
  • 结论 :这证明了其3D-2D联合关联策略和特征损失的有效性,能够实现更精确的物体实例分组。

2. 语言引导的对象检索

表2 :Replica数据集上的对象检索性能

图片

解读 :这个实验评估了系统根据自然语言查询定位物体的能力。

  • 结果 :在“描述性”查询中,利用DynamicGSG构建的层级场景图进行检索(HSG),其召回率(R@1达到0.71)远高于仅使用CLIP或LLM的基线方法。在更复杂的“功能性”(Affordance)和“否定性”(Negation)查询中,其性能同样领先。
  • 定性分析(图5) :当查询“一个柜子上的咖啡壶”时,ConceptGraphs等方法由于无法理解“在...上”这种空间关系而失败,而DynamicGSG能够利用其层级场景图成功定位。

3. 动态场景更新

图片

图6 :动态更新的可视化

表5 :真实世界动态更新成功率

图片

解读 :这是最能体现DynamicGSG“动态”特性的实验。研究人员在真实实验室中手动改变场景(如拿走背包、移动桌子、交换书本位置等)。

  • 结果 :系统能够可靠地检测到这些变化,并对高斯地图和场景图进行相应的局部更新。总体成功率达到了88.8%(表5)。例如,在(a)中,系统成功检测到背包和垃圾桶的消失,并从地图中移除了它们。在(b)中,系统检测到桌子和其上所有物品的整体移动。
  • 结论 :这证明了DynamicGSG leveraging 3DGS的快速渲染和训练能力,使其能够有效地、实时地适应真实世界的动态变化。

总结

DynamicGSG的出现,是场景理解领域的一个重要里程碑。它成功地将现代计算机视觉的两大支柱——强大的视觉基础模型和高效的3D高斯溅射——与机器人学中经典的场景图概念进行了深度融合,并赋予了其前所未有的动态适应能力。

通过创新的3D-2D联合关联策略和实例特征损失,DynamicGSG解决了在3DGS上进行精确物体级分割和分组的核心难题。更重要的是,它利用3DGS的显式和高效特性,真正实现了一个能够与物理世界保持同步的“活地图”,让机器人不仅能“看懂”世界,更能“看清”世界的变化。这项工作为机器人在复杂、动态、长时程的人类环境中执行任务,铺平了坚实的道路。

文章地址:https://arxiv.org/pdf/2502.15309

敬请期待我们的下一篇文章!欢迎加入我们关于SLAM&大模型&Agent&具身智能学术交流群。

 

点击订阅公众号 | 前沿机器人学术成果每日更新

图片

SLAM专栏第53篇文章 | 欢迎点赞推荐关注

SLAM专栏
  • SplaTAM:一种融合3D高斯溅射,实时构建高保真三维世界的方法
  • TAMBRIDGE :一种桥接传统与现代,实现鲁棒、实时、高保真SLAM的方法
  • GS-SDF :一种融合激光雷达与神经SDF,实现几何一致性高斯溅射渲染的方法
  • LiGSM :一种融合激光雷达与高斯溅射,实现高精度与鲁棒建图的方法
  • DQO-MAP :一种融合对偶二次曲面与高斯溅射,实现多物体实时位姿估计与重建的方法

注:本公众号发布的内容仅用于信息传递与知识分享,不保证绝对准确,也不构成专业建议。因使用内容造成的任何损失,我们概不负责。 若公众号含外部链接,链接内容及运营不受我们控制,由此产生的风险和损失,读者自行承担。此外,原创内容版权归本号所有。因不可抗力、技术故障等致内容异常,本号同样免责。阅读即视为同意本声明,如有侵权,联系删除。

 
SLAM文献荐读 · 目录
上一篇DQO-MAP :一种融合对偶二次曲面与高斯溅射,实现多物体实时位姿估计与重建的方法下一篇SiLVR :一种融合激光雷达与视觉,并量化不确定性的大规模NeRF重建方法
阅读 146
 
​
 
 
 
 
 
 
Green生态智能机器人
 
 
 
 
复制搜一搜
 
 
 
复制搜一搜
 
posted on 2025-11-28 04:36  MKT-porter  阅读(1)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3