https://www.themoonlight.io/zh/review/hier-slam-neuro-symbolic-semantic-slam-with-a-hierarchically-categorical-gaussian-splatting
1. 分层分类表示
Hier-SLAM++采用了一种新的分层表示方法,将语义信息和几何信息以紧凑的形式编码为3D高斯点云。
这种方法通过建立分层树结构,使语义信息被符号化表示,并通过端到端的学习方式实现。
树结构参数化:树被表示为一组顶点和边,顶点表示不同层级的节点,边表示各层级之间的从属关系。树的结构使得每个语义类别可以通过从根到叶的路径来表示。
使用LLMs和3D生成模型:此论文将大语言模型(LLMs)和3D生成模型结合来生成分层树结构。LLMs用于提取语义信息,3D生成模型(如MeshGPT)用于捕捉几何特征。通过文本提示来激发这些模型,从而创建层级及其对应的语义标签。
2. 语义损失优化
该论文介绍了一种新颖的语义损失函数,旨在通过层间和跨层优化来改善分层语义信息的学习。这种损失函数包含了层间损失和跨层损失,采用交叉熵损失来确保优化过程中的语义信息准确性。
层间损失:在每层的嵌入中,通过交叉熵损失来优化层内的语义信息。
跨层损失:利用语义解码器,将层级编码映射为平面编码,从而进行优化。
3. 单目设定下的几何优先
为了支持单目输入,Hier-SLAM++引入了DUSt3R模型作为几何先验,获取深度信息。DUSt3R能够从稀疏视图图像中生成3D点云和位姿估计,这有助于减少对专用深度传感器的依赖。
4. 3D高斯点云表示
本方法通过引入分层语义嵌入,将现有的3D高斯表示与语义信息相结合。每个3D高斯元素包括颜色、位置、半径、不透明度和语义嵌入,其影响基于标准高斯方程进行建模。
5. 实验结果与评估
在多个合成和实世界数据集(如ScanNet和Replica)上进行的实验表明,Hier-SLAM++在与最先进的NeRF和高斯SLAM方法的比较中,性能优越或相当,同时显著减少了存储和训练时间要求。
浙公网安备 33010602011771号