


摘要—
本文针对刚性语义场景图配准的挑战,这一能力在自主智能体需要将其地图与远程智能体地图或先验地图进行配准时至关重要。
经典语义辅助配准方法中的手工描述符,或基于学习的场景图配准方法对真实语义标注的依赖,阻碍了它们在实际现实环境中的应用。
为应对这些挑战,我们设计了一种场景图网络,用于编码语义节点的多种模态:开放集语义特征、具有空间感知的局部拓扑以及形状特征。
这些模态被融合以创建紧凑的语义节点特征。
随后,匹配层以由粗到精的方式搜索对应关系。
在后端,我们采用鲁棒的位姿估计器根据对应关系确定变换。
我们设法维持了一种稀疏且分层的场景表示。
我们的方法在多智能体任务中需要更少的GPU资源和通信带宽。
此外,我们设计了一种新的数据生成方法,利用视觉基础模型和语义建图模块来重建语义场景图。
这与先前依赖真实语义标注生成数据的工作有显著不同。
我们在一个双智能体SLAM基准测试中验证了我们的方法。
其在配准成功率方面显著优于手工设计的基线方法。与视觉回环检测网络相比,我们的方法实现了略高的配准召回率,同时每查询帧仅需52 KB的通信带宽。
代码位于:链接。索引术语—SLAM,机器人与自动化中的深度学习,多机器人系统,语义场景理解。
I. 引言
在密集室内场景中进行全局配准对于视觉同步定位与建图(SLAM)系统至关重要。
它在多智能体SLAM [1]、多会话SLAM [2], [3] 以及长期SLAM [4] 系统的性能中起着关键作用。
依赖于图像匹配 [5]–[7] 进行回环检测和全局配准具有挑战性,因为图像匹配对视角差异敏感。
此外,在多智能体SLAM中,广播图像数据需要大量的通信带宽。
为了解决基于视觉的回环检测的局限性,语义辅助配准方法被提出 [8]–[10],它提供了更强的视角不变性和更高效的数据表示,从而减少了通信带宽的需求。
近年来,基于学习的语义场景图配准方法[16], [17]已经出现。
这些方法对语义场景图进行编码,并通过解决部分分配问题来确定多层次的对应关系。
它们消除了对语义节点间手工设计相似性度量的需求。
然而,当前的场景图学习方法是在带有真实标注的数据集上训练的,这导致标注数据集中的语义场景图与真实场景中的语义场景图之间存在显著领域差距,尤其是在存在噪声的情况下。
因此,这些基于学习的方法在泛化方面面临挑战,并在真实世界实验中表现出有效性有限。
这种真实世界的语义噪声和传感器噪声促使我们提出一种新的数据生成方法。
我们使用三个视觉基础模型[18]–[20]和一个语义建图模块:FM-Fusion [11]来重建语义场景图。
在真实室内环境中,与使用Mask R-CNN [21]结合早期语义建图方法[22], [23]生成的场景图相比,重建的语义场景图展现出更高的质量。
尽管我们的方法有效地将语义噪声限制在适当水平,但它不能完全消除噪声。
例如,如图1所示,来自两个场景图的放大子体积揭示了由于真实世界重建中的噪声而导致的语义不一致。
与先前依赖真实语义标注生成数据的场景图学习方法[16], [17]相比,我们的方法引入了一个新的实际挑战。
为了解决噪声场景图的挑战并实现可泛化的配准,我们提出在场景图中编码多种类型的信息:语义标签、局部拓扑和几何形状。
语义标签由预训练的BERT [24]模型编码,该模型以其强大的泛化能力而闻名,并自然接受开放集标签。
在学习语义节点的局部拓扑时,我们引入了一个三元组描述符并将其集成到图神经网络(GNN)[25]中,以增强所学特征的空间感知能力。
它在确保对4自由度(DoF)全局变换不变性的同时,增强了局部拓扑的描述能力。
对于形状信息,形状网络读取每个语义节点的点云并聚合几何形状特征。
我们融合所有信息以生成全面的语义节点特征。
场景图将原始的密集3D点云表示为稀疏的对象级特征,从而使网络层能够处理整个场景,同时需要更少的GPU资源。
我们网络的最后一个模块包含两个层次的图匹配层:一个用于匹配语义节点,另一个用于匹配它们的点云。
每个层次的对应关系使用最优传输算法[26]高效确定。
后端模块读取点云对应关系,通过最大团算法[27]剔除异常点,并利用鲁棒估计器G3Reg[28]进行位姿估计。
该后端设计能够容忍一定比例的点云异常值,从而在异常值比率通常较高的跨域实验中进一步增强整体泛化能力。
本研究聚焦于室内视觉-惯性SLAM条件下的语义场景图配准任务,主要贡献如下:
我们提出了一种基于学习的语义场景图配准方法。
该方法采用三元组增强的图神经网络层,旨在捕捉语义节点的拓扑关系及空间感知能力。
与普通GNN网络相比,该设计在保持4自由度全局变换不变性的同时,提供了更具描述性的语义节点表征。
• 形状网络为每个语义节点生成形状特征,并将其融合至节点特征表示中,以提升场景图匹配性能。得益于语义节点的稀疏特性,计算复杂度和GPU内存消耗显著降低。
• 我们提出了一种面向场景图学习的自动数据生成方法。通过利用视觉基础模型[18]-[20]和语义建图模块[11]构建语义场景图,这种创新数据生成方案仅需配准的RGB-D序列即可训练网络,摆脱了对真实标注数据的依赖,并显著缩小了训练数据与真实场景数据之间的领域差距。
• 基于3RScan[29]真实场景重建数据,我们与基线模型[17]进行了全面对比验证。
实验表明本方法在取得显著更高配准召回率的同时,GPU资源消耗大幅降低。
• 如图1所示,我们将成果部署于双智能体SLAM系统,实现由粗到精的场景图配准。
在通信带宽需求极低的前提下,本方法的配准成功率显著优于手工语义描述符[15],较NetVLAD与LightGlue[5][7][30]的组合方案提升0.7%。
当前最先进的视觉SLAM系统 [2], [23], [31] 依赖 DBoW [32] 进行回环检测和相机位姿配准。
例如,在 VINS-Mono [31] 中,如果 DBoW 检测到一个回环候选,它会提取 BRIEF 描述符并在回环图像之间执行暴力匹配。
随后,VINS-Mono 使用基于 RANSAC 的 Perspective-n-Point [33] 方法进行图像配准。
为了剔除错误的回环或不准确的配准,视觉SLAM系统在位姿图 [23], [31] 或共视图 [2] 中采用了综合的几何验证。
近年来,基于学习的图像匹配方法被提出,并主要提升了视觉SLAM中的配准性能。
SuperGlue [6] 和 LightGlue [7] 使用注意力层编码图像特征并搜索特征对应关系。
NetVLAD [5] 与它们结合,以由粗到精的方式 [30], [34] 进行回环检测。
这些基于学习的方法在视觉SLAM中的性能显著优于传统的回环检测方法。
然而,在多智能体SLAM中,基于学习的图像配准方法需要相当大的通信带宽。
此外,在存在显著视角差异的情况下,它们常常导致错误的配准结果。
鉴于视觉SLAM能够生成稠密点云地图[35],其可与点云配准技术结合以计算全局变换。
传统的点云配准方法[36]涉及从输入点云中提取FPFH特征[37],并使用高斯-牛顿法求解位姿估计问题。
随后,研究者提出了鲁棒位姿估计器[28], [38],即使在存在大量异常值的情况下也能估计位姿。
与此同时,大量基于学习的点云配准方法[39]–[41]被提出。
这些方法使用3D卷积网络[42]或PointNet[43]作为点云骨干网络,利用提取的特征建立对应关系,随后通过奇异值分解(SVD)或加权SVD[44]以闭式解求解相对位姿。
在基于学习的点云配准方法中,GeoTransformer[41]在3DMatch数据集[45]上展现了优异的配准性能,该数据集包含了真实室内环境的点云局部扫描数据。
尽管性能卓越,但GeoTransformer需要对超点进行特征编码,并在这些超点上使用注意力层[46]。
由于超点的密度较高,注意力操作需要大量的GPU资源,这限制了其在大规模场景中的可扩展性。
为了将场景图集成到视觉SLAM中,首要步骤是构建场景图。
Kimera[23]及其系列工作是该领域的先驱。通过使用Mask R-CNN[21],Kimera将图像中获得的语义分割信息融入度量-语义地图。
该地图基于TSDF体素网格地图[47]构建,并遵循SemanticFusion[22]的方法进行集成。
随后,Kimera将稠密度量-语义地图聚类为不同层级的表示:物体、场所、楼层和建筑物。
后来的S-Graph[48]和S-Graph+[49]通过分割3D平面来构建场景图,并将其进一步集成到可优化的因子图中。
语义场景图弥合了机器人感知与人类感知之间的差距。它被视为未来空间智能的空间感知引擎[50]。
随着视觉基础模型的发布,语义建图[51],[52]的最新进展越来越多地整合这些模型来重建3D语义地图。
其中,FM-Fusion[11]专注于室内环境的RGB-D SLAM,它集成来自RAM-Ground-SAM[18]-[20]的物体检测结果来重建实例感知的语义地图。
与Fusion++[9]类似,FM-Fusion在独立的TSDF子图中表示每个语义实例。它
使用贝叶斯滤波器融合语义标签,同时独立建模来自RAM[18]和GroundingDINO[19]的测量似然。
通过利用视觉基础模型,FM-Fusion在ScanNet基准测试上相比Kimera实现了更准确的语义实例分割。
基于语义实例,我们构建了不依赖真实标注的更高质量语义场景图。
然而,RAM-Ground-SAM仍会预测带有噪声的实例分割和错误的语义标签。
与使用ScanNet或3RScan标注生成的场景图相比,使用FM-Fusion重建的场景图仍存在显著噪声。
我们在表I中对语义数据关联方法进行了全面总结。
我们的方法与以往语义SLAM工作存在根本性差异——后者主要重构显式语义表示并创建手工描述符,而我们则采用学习式编码方法。
与最相似的SG-PGM相比,我们存在三大核心区别:
首先,三元组增强的GNN通过提升空间感知能力实现更优的语义节点编码;
其次,我们避免使用注意力层聚合点云特征,显著降低了GPU内存占用并加速推理;
最后,我们在真实SLAM环境中开展评估,而SG-PGM等现有学习方案仅在使用真实标注的场景图上测试性能。
通过将数据生成流程与语义建图[11]相结合,我们实现了基于语义建图场景图的端到端训练与评估。
如图2所示,SG-Reg由场景图网络和鲁棒位姿估计器组成。
场景图网络读取一对语义场景图 {G^A, G^B} 作为输入,并生成节点匹配 M 以及点对应关系 C。
利用这些分层匹配,位姿估计器计算两个场景图之间的相对变换 T^A_B。以下我们总结方法中使用的场景表示:
首先,我们对GNN模块的输入特征进行初始化。我们使用BERT[24]对语义标签进行编码,并使用单层MLP对边界框尺寸进行编码。节点 vi∈VA的节点特征初始化如下
其中 0xi∈Rd,[⋅∥⋅]表示向量拼接。
当前的注意力GNN在其自注意力聚合机制中引入了相对位置编码(RPE)[7]:

其中 oi/j是节点中心,ΦR是一种旋转编码。RPE已被证明在视觉任务[7][61]和语言任务[24]中能增强学习效果。
然而,RPE在3D几何任务中存在一个关键局限:
它对偏航角旋转不具有不变性。
具体而言,当输入图经历偏航角旋转变换时,RPE无法产生旋转不变的特征,而这在此类场景的鲁棒匹配中至关重要。
为解决这一挑战,我们设计了一种三元组描述符来增强GNN的学习能力。
该三元组描述符被设计为对4自由度全局变换具有不变性。
如图3所示,我们将语义节点 vi∈VA设为三元组的锚点,并随机采样其两个相邻节点 {vj,vk}作为三元组的角点。
三元组特征记为 (t^i_{j,k} \。
在计算 tj,ki时,我们按照视觉SLAM坐标系[31]中沿z轴的逆时针方向保持角点节点 vj, vk的顺序。
数学上,三元组特征定义如下:

首先定义相对位置向量 ei,j=oj−oi,其中 oi和 oj分别为节点 vi和 vj的几何中心坐标。
然后计算有序三元组特征:

g<sup>i</sup><sub>j,k</sub> 是一个几何嵌入,它通过一个多层感知机(MLP)将三元组特征映射到高维空间:

其中,三元组边的长度 ∥ei,j∥,∥ei,k∥∈R,而 e^i,j,e^i,k是归一化后的向量。
项 e^i,j⋅e^i,k表示三元组夹角的余弦值。正弦函数 ψL和 ψA分别用于嵌入边长度和三元组角度。
这些正弦函数在 GeoTransformer [41] 中曾被用于编码几何标量。
在阐述了三元组特征的构建过程后,我们现在说明如何将其集成到 GNN 中。
三元组增强的 GNN 读取初始化的节点特征 0XA并输出为 1XA。
对于所有 i∈A,残差消息传递的更新过程如下:

为为计算消息特征 mi,我们首先从其关联的边集 E(i,⋅)中采样一组三元组。随后利用注意力机制 [46] 计算该特征,该机制聚合了所有采样三元组的嵌入。

注意力得分 α<sup>i</sup><sub>j,k</sub> 通过对所有查询-键相似度进行softmax计算得到:



与普通的图注意力网络[25]相比,三元组增强了GNN的空间感知能力。
与结合了RPE[7]的GNN相比,我们的方法确保了特征对偏航旋转保持不变性。
此外,我们的过程更贴近人类直觉。
人类通过具有空间感知的物体拓扑来描述房间布局以识别之。
例如,一个人可能会描述他办公室里的沙发面朝电视机,并且其左侧有一张桌子。
我们的三元组描述符通过空间感知捕捉局部拓扑,模拟了人类直觉。
在SLAM领域,虽然已有类似的三元组描述符[62]–[65]被提出,但它们是以显式方式表示三元组的。
我们认为,在我们所针对的跨域场景中,三元组是一种相对稳定的局部结构。
即使在有噪声的场景图下,如果一个节点特征聚合了一个或两个正确的三元组,它仍然有很大可能找到正确的匹配。
C. 形状网络
形状网络生成两个层级的几何特征。
它包含一个学习点特征的点云骨干网络,以及一个学习节点级形状特征的形状骨干网络。
给定一对场景图 {G^A, G^B},我们提取它们的全局点云 {X, Y},其中每个点都标注了其所属的父节点索引。
我们将这些点云下采样为四个分辨率 {^lX, ^lY}_l,其中层索引 l = {0, 1, 2, 3}。在下采样过程中,父节点索引保持不变。

图4:形状网络结构及其点聚合核的可视化。
点云骨干网络使用网格下采样来决定聚合核,这些核小而密集。
形状骨干网络遵循实例分割来创建聚合核,这些核大而稀疏。
在接下来的步骤中,我们以 {^lX}l 的编码为例进行说明,{^lY}l 的处理方式与之相同。
如图4所示,点云骨干网络在多个层级生成点特征。
我们仅将第二精细层级的点特征作为隐藏状态特征 H^A 使用。
我们没有采用最精细层级的点云特征,因为正如先前工作[41]所指出的,这些特征是冗余的。
利用在 ^1X 中维护的节点索引,我们可以直接从 H^A 中采样节点级别的点。
在采样过程中,我们仅为每个节点保留 K_p 个点。
如果某个节点的点数量过少或过多,我们通过随机采样或零填充将数量调整至 K_p。
采样得到的节点级点云和特征分别记为 P^A 和 Z^A。


需要注意的是,形状融合可以在三元组-GNN之前(早期融合)或之后(晚期融合)进行。
我们将在第七章节D3的实验中研究早期融合和晚期融合的影响。
先前的一些点云配准工作[41][39]也采用点云骨干网络来提取点云特征。
我们方法的独特性在于在点云骨干网络之后增加了一个形状骨干网络。
这种方法具有两个关键优势。
首先,它降低了点云骨干网络输出特征的密度。
在以往的点云学习方法[39][41]中,它们在点云骨干网络后的隐藏状态特征上运行多个注意力层。
由于隐藏状态特征分布密集,它们的注意力层消耗巨大的GPU内存,并且只能在小规模场景上运行。
其次,形状骨干网络生成形状特征来表示每个语义节点的几何属性,使得形状特征能够与其他模态特征直接融合,从而创建紧凑的语义节点特征。
D. 分层图匹配
通过学习得到的节点特征及其点特征,我们可以运行分层图匹配层来搜索对应关系。如表II所示,我们总结了节点分配矩阵 AX和点分配矩阵 AZ。解码后的点分配矩阵 A^Z用于监督形状网络的训练,在推理过程中会被跳过。

接下来,我们阐述每个层级分配矩阵的构建。
在先前的工作中,SuperGlue [6] 将图匹配问题表述为一个可微分的部分分配问题,并通过 Sinkhorn 算法 [26] 确定最优匹配。
我们在图匹配中采用了类似的技术。在节点匹配层,我们按如下方式计算节点相似度矩阵和节点分配矩阵:






E. 训练
1) 损失函数: 我们按如下方式训练网络:

提出 L_gnn 是为了监督三元组-GNN 和节点匹配层,而提出 L_shape 是为了监督形状骨干网络。
具体而言,



其中,M是真实节点对。下面我们解释对比损失和最优传输损失项。


V. 鲁棒位姿估计器






尽管上述框架在应对极低内点率配准时表现出色,但在处理较高内点率和重复对应模式时,其效率和鲁棒性可能会受到影响。
为解决这些局限性,我们引入了两种实用策略,旨在同时提升系统的效率和鲁棒性。
首先,虽然最大团剪枝法[69]在低内点率下展现出卓越的鲁棒性,但其计算成本在实践中随内点率线性增长。
相比之下,GNC在较高内点率下能提供相当的精度且执行更快。
因此,我们的混合方法仅在GNC估计的内点率低于某个特定值(例如0.3)时才激活最大团剪枝。
否则,我们直接采用GNC的预测结果作为候选变换。该策略实现了最优的速度-精度权衡。
其次,重复结构容易产生密集且内部一致的点对应关系,这可能形成一个大的异常值团,从而使基于最大团的内点选择策略[38]失效。
为缓解此问题,我们对对应关系应用非极大值抑制。
对于对应关系 (pi,qi)和 (pj,qj),如果 ∥pi−pj∥22小于预设阈值,我们仅保留得分较高的那个对应关系。
异常值剔除和鲁棒位姿估计器不存在泛化问题。它们保证了在可能具有高异常值率的跨域评估中的配准性能。
为展示场景图配准如何助力SLAM任务,我们将SG-Reg集成至一个双智能体SLAM系统中,用于检测回环并对场景图进行配准。所实现系统的结构如图5所示。
1) 由粗到精的通信: 我们引入一种由粗到精的通信策略,以实现精度与通信带宽间的最佳平衡。
- 初始阶段,每个智能体以稳定频率(例如1 Hz)广播其粗粒度消息,使SG-Reg能够匹配语义节点。
- 在某个查询帧,如果匹配的节点数达到最小值,该智能体会向远程智能体发送请求消息。
- 作为响应,远程智能体会发布稠密消息,使得请求方智能体能够执行图2所示的完整配准流程。
- 为防止稠密消息发布过于频繁,我们在允许发送请求消息的查询帧之间设定了最小时间间隔。
为展示场景图配准如何助力SLAM任务,我们将SG-Reg集成至一个双智能体SLAM系统中,用于检测回环并对场景图进行配准。所实现系统的结构如图5所示。
1) 由粗到精的通信: 我们引入一种由粗到精的通信策略,以实现精度与通信带宽间的最佳平衡。
- 初始阶段,每个智能体以稳定频率(例如1 Hz)广播其粗粒度消息,使SG-Reg能够匹配语义节点。
- 在某个查询帧,如果匹配的节点数达到最小值,该智能体会向远程智能体发送请求消息。
- 作为响应,远程智能体会发布稠密消息,使得请求方智能体能够执行图2所示的完整配准流程。
- 为防止稠密消息发布过于频繁,我们在允许发送请求消息的查询帧之间设定了最小时间间隔。
下方我们重点说明来自智能体A的广播消息格式:
- 粗粒度消息:
{X^A, O^A}
- 稠密消息:
{X^A, O^A, X}
其中,节点特征 XA∈R∣A∣×d,节点中心点 OA∈R∣A∣×3,而堆叠的点云 X如第四章节C节所述。
为提升接收粗粒度消息时的性能,我们在程序中维护了最新的点对应关系 C~。
当收到粗粒度消息时,如果 C~可用,我们会将匹配节点的中心与 C~合并来构建最终对应关系集 C;
否则,仅使用匹配节点的中心构建 C。
每次读取 C后,SG-Reg会在没有初始变换的情况下预测一个全局变换 TBA。
2) SG-Reg部署: 我们使用 LibTorch 实现了SG-Reg中的网络模块,从而能够从C++可执行程序中调用神经网络。
我们将SG-Reg与其他SLAM模块集成。
SG-Reg中的每个网络块被独立部署,允许SLAM系统在融合或不融合形状特征的情况下匹配语义节点。
3) SLAM集成: 如图5所示,我们使用 VINS-Mono [31] 计算视觉-惯性里程计。
RAM-Ground-SAM [18], [19], [70] 处理RGB序列并在实验前保存其预测结果。
FM-Fusion [11] 读取来自RAM-Ground-SAM的预备数据并实时运行。
VII. 实验
我们进行了一系列实验来评估我们的方法。
这些实验揭示了我们的方法具有以下优势,这些优势与我们在第一章中声明的创新点相符:
- 场景图匹配:通过第七章节D部分讨论的三元组增强GNN和形状特征融合,实现了性能提升。
- 泛化能力:我们的方法的配准能力在跨域数据集(第七章节C部分)和真实世界SLAM系统(第七章节E部分)中得到了验证。
- 高效性:编码稀疏场景表示在第七章节C部分中所需GPU资源显著减少,在第七章节E部分中提升了通信效率,并在第七章节F部分中加快了推理速度。
- 自监督训练:我们在第七章节A(4)部分阐述的训练方法,涉及从已配准的RGB-D序列自动生成数据。

3RScan数据集提供了真实的场景图标注[16][17],我们称之为3RScan-GT。
此外,考虑到真实标注与实际数据之间的差异,我们使用语义建图[11]方法自动标注这两个数据集,并分别称之为3RScan-Mapping和ScanNet-Mapping。
训练集和测试集的划分遵循数据集的原始设置。
如表III所示,我们分别使用3RScan-GT和ScanNet-Mapping训练基线方法和我们的方法,并在第七章节C部分评估它们的跨域性能。
除了重建场景外,我们还在定制的双智能体SLAM基准测试中评估我们的方法。
我们的场景图配准模块被部署到SLAM系统中,并以由粗到精的策略在两个智能体之间配准场景图。
该基准测试基于在真实世界环境中采集的RGB-D和惯性序列数据。
2) 评估指标:
- 节点召回率(NR)和节点精确率(NP):
- 用于评估场景图匹配性能。如果节点点云之间的交并比(IoU)高于阈值 τiou=0.3,则视为真正例(TP)节点对,否则为假正例(FP)对。
- 然后,我们可以计算NR和NP,类似于图像匹配任务[6]中的召回率和精确率。
- 配准任务指标:遵循GeoTransformer[41],使用内点率(IR)和配准召回率(RR)来评估精度。
- 根据预测的变换,如果对齐点云之间的均方根误差(RMSE)小于阈值(例如,RMSE < 0.2m),则认为该预测是一次成功的配准。配准召回率是成功配准的比例。
3) 基线方法:
我们将配准性能与 SG-PGM [17] 和 GeoTransformer [41] 进行比较。
在双智能体 SLAM 中,我们的方法与 Hydra [15], [50] 和 HLoc [30] 进行对比。
Hydra 和 HLoc 在基准测试中以离线方式运行。
4) 训练数据: 在 ScanNet-Mapping 数据中,每个 ScanNet 序列被分割成多个子序列。
我们选择一对子序列分别作为源序列和参考序列。
每对场景图都施加了一个随机的 4 自由度变换。
我们在每个子序列上运行 FM-Fusion。
因此,我们可以获得大量用于训练和评估的场景图对。
由于未使用 ScanNet 的真实标注,我们声称我们的方法采用了自监督的场景图训练。
该训练方法可以扩展到其他室内 RGB-D SLAM 数据,并且不需要真实的语义标注。
在 3RScan-GT 数据中,我们直接应用了 SGAligner [16] 的数据生成方法。
5) 实现细节: 我们使用 Adam 优化器训练网络,学习率为 0.01。
训练数据包含 1990 对从 ScanNet-Mapping 和 3RScan-GT 数据集重建的场景图。
形状网络的预训练进行 64 个周期,其余训练进行 80 个周期。
我们在配备 Intel-i7 CPU 和 Nvidia RTX-3090 GPU 的台式计算机上运行训练过程和所有实验。
B. 3RScan 基准测试
本节旨在评估不同方法在使用完全精确的训练和验证标注时的精度差异。我们使用官方发布的版本。
我们对训练好的SG-PGM模型进行了两处调整。
首先,我们使用BERT对其语义标签进行编码,这与我们的方法相同。
SG-PGM的原始版本是从其每个语义标签生成语义直方图,并构建语义特征向量。
由于BERT是更强的语义编码器,我们将其应用于SG-PGM以确保公平比较。
其次,SG-PGM会读取边的关联关系标签。
我们将所有关联关系标签都设为"无"。
这是因为3RScan-Mapping中的场景图不提供任何关联关系标签,因此我们在两个版本的训练中均将其设置为"无"。

如表IV所示,我们的节点召回率和节点精确度显著高于SG-PGM。
我们的配准召回率略高于SG-PGM。
这反映出我们在语义节点匹配方面保持了决定性优势。
然而,我们在配准召回率上的优势不那么显著,这可能是因为使用真实语义标注会提高节点匹配的准确性,使得我们的方法无法完全展现其鲁棒性和优越性。
对于场景图配准任务,真实数据总是包含分割差异和错误的语义标签预测,这会极大影响准确性。
因此,我们认为在3RScan-GT上训练无法反映场景图配准方法的实际可用性,而只能显示其精度的理论上限。
本节的实验结果仅作为参考,用以证明即使在理想应用场景下,我们的方法也优于基线方法。
C. 跨域基准测试
深度学习方法常常受限于其泛化性能。
考虑到我们的方法旨在应用于机器人的长期使用,我们认为有必要评估其跨数据集的性能。
在本节中,我们详细评估了我们的方法以及两种基线方法在一个与训练数据集不同的验证数据集上的泛化能力、准确性和效率。
1) 基线设置:
我们使用官方发布的 GeoTransformer [41] 和 SG-PGM [17] 版本。
我们使用 ScanNet-Mapping 数据对它们进行训练,并在 3RScan-Mapping 数据上进行评估,以测试它们在不同数据域中的泛化能力。
我们对 SG-PGM 的实现进行了与第七章节B部分类似的修改。
我们保持所有 3D 骨干网络的参数(如体素大小和点特征维度)一致。
同时,我们关闭所有方法的 ICP [72] 精修步骤以确保公平比较。
2) 配准精度:
我们将来自 3RScan-Mapping 的 100 对场景分为三组:
76 对小场景对、13 对中等场景对和 11 对大场景对。
分组依据是每对场景中最大的点数。
我们总结了每个分组的场景点数范围,如表 V 所示。


如图6所示的中等规模场景,3RScan-Mapping中的语义场景图表现出显著的语义噪声,包括过分割的物体和带有噪声的点云重建。
与SG-PGM相比,我们的方法生成了更多正确的节点匹配和更少的错误节点匹配,展现了比SG-PGM更精确、更鲁棒的场景图匹配性能。
与GeoTransformer相比,我们的语义节点比GeoTransformer中的超点稀疏得多。得益于强大的描述性特征,我们的节点匹配精度高于GeoTransformer中的超点匹配精度。
为了讨论配准性能,我们引入了伪内点的定义,即经过异常值剔除后并被估计器视为内点的对应关系。
如第五章节所述,我们通过最大团剔除点对应关系中的异常值。
类似地,GeoTransformer和SG-PGM通过基于加权SVD[44]的局部到全局配准[41]方法来剔除异常值。
基线工作和SG-Reg都存在伪内点。我们计算了伪内点率,即伪内点中真实内点的比例。
如图6所示,我们的内点率和伪内点率均高于GeoTransformer,表明了点匹配更准确。
在最终的配准结果中,SG-Reg和GeoTransformer都成功对齐了场景。

然而,在SG-PGM中,对抗性异常点的存在导致了配准失败。
如图6所示,这些异常点在几何上具有一致性,因此更难被剔除。
尽管进行了异常值剪枝,这些对抗性异常点仍然存在于伪内点中。
虽然对抗性异常点在GeoTransformer和我们的结果中也存在,但SG-PGM尤其容易受到影响,因为其高异常值比率导致无法有效剔除它们。
此外,SG-PGM的异常值剪枝方法依赖于批量加权SVD[44],这可能限制了其消除对抗性异常点的能力。
该方法搜索包含最多伪内点的小批量对应关系。
因此,这个包含对抗性异常点的小批量很可能获得最高的置信度得分,从而导致错误的SVD预测结果。
如表VI所示,我们的整体性能远优于SG-PGM。我们在各个层级的匹配和最终配准结果上都超过了SG-PGM。
考虑到我们的方法和SG-PGM都采用了显式融合节点特征和形状特征的策略,这一显著的精度差距进一步证明了我们编码方法的科学有效性。
这也验证了我们的方法能够跨数据分布配准场景图,展现出强大的泛化能力。
与GeoTransformer相比,我们的方法实现了略优的性能,将配准召回率提高了4.8%,内点率提高了5.6%。
特别是在中等规模场景中,我们显著优于GeoTransformer,配准召回率高出15.4%。
这表明引入语义信息进行配准的主要优势在于能够在大规模场景中获得更高的召回率。
在大型场景中,存在频繁出现的相似几何结构,如来自多把椅子或多本书的点云。
仅依赖3D点特征来配准大型场景极具挑战性。
通过融入语义信息,我们增强了编码3D特征的描述能力。
我们还报告了伪内点率来佐证我们的改进。
如表VII所示,我们的伪内点率高于SG-PGM和GeoTransformer。
更高的伪内点率增加了位姿估计器预测准确变换 TBA的可能性。
此外,我们注意到表VII中每种方法的伪内点率都高于其内点率。
然而,我们的伪内点率提高了30.8%,这一增益幅度大于基线方法。
这表明SG-Reg产生的对抗性异常值更少,从而能够更有效地剔除异常值,并在异常值移除后获得更大的精度提升。
3) 计算效率: 与基线模型相比,SG-Reg 所需的每秒浮点运算次数(FLOPS)显著减少,并且消耗的 GPU 内存更少。
这种计算效率的提升源于其能够以更高的压缩率对场景进行编码。
如图 7(a) 所示,SG-Reg 将场景简化为几十个语义节点,而 GeoTransformer 将其压缩为数百个超点。
考虑到在输入特征集上的注意力操作 [46] 的计算复杂度为 O(n2),其中 n是输入特征的数量,在语义节点上执行注意力操作远比在超点上计算效率更高。
为验证我们的分析,我们设计了一项研究,在 GeoTransformer、SG-PGM 和 SG-Reg 上分别运行单个 GNN 层。
我们在所有目标场景中进行了此项研究。
如图 7(b) 所示,SG-Reg 消耗的 GPU 内存最少,且所需的 FLOPS 远低于两个基线模型。
即使对于超过 21 万个点的大场景,我们预留的 GPU 内存也低于 11GB,FLOPS 低于 2,215 MFLOPS。
相比之下,GeoTransformer 需要超过 1,000,000 MFLOPS,远高于我们的方法。
此外,由于内存限制,GeoTransformer 无法推理大场景;
它在 Nvidia RTX-3090 上会超过 24GB 的最大 GPU 内存容量。
与我们最接近的基线 SG-PGM,其效率介于 SG-Reg 和 GeoTransformer 之间,因为它继承了 GeoTransformer 的超点编码方式,需要比我们的方法更多的 GPU 资源。
我们在 ScanNet-Mapping 的评估集上进一步评估性能,该评估集包含 218 对场景图。
在 ScanNet 基准测试中,除了整体精度外,我们重点探究影响场景图匹配性能的因素,包括 GNN 骨干网络的影响、形状融合策略以及语义节点的感知范围。
1) 配准性能对比: 如表VIII所示,在不考虑跨域性能的情况下,我们的节点召回率和节点精确率均大幅高于SG-PGM。
我们的配准召回率略高于SG-PGM。我们报告源域结果以展示各方法性能上限。
2) 三元组增强GNN评估: 我们验证了三元组增强GNN能够学习具有更强空间感知能力的节点特征。
我们使用三种GNN骨干作为基线:原始GAT[25]、LightGlue[7]中使用的RPE GAT以及几何Transformer[41]。
我们将每种GNN骨干替换我们所用的三元组增强GNN。所有方法均在ScanNet上训练和评估。
为聚焦评估GNN的影响,我们在所有基线方法和自身方法中跳过了形状融合模块,直接使用GNN后的节点特征进行语义节点匹配。
在图8所示的办公室场景中,三元组增强GNN生成了更多的真正例匹配和更少的假正例匹配。该场景具有多个相同语义类别且位置相近的物体。原始GAT仅考虑语义拓扑关系,难以处理这些模糊物体,导致假正例匹配数量最多。相比之下,通过变体相对位置信息增强的RPE GAT性能略优于原始GAT。此外,由于三元组特征对4自由度的全局变换具有不变性,三元组增强GNN的表现优于RPE GAT。
定量结果分析如表IX所示,我们的方法在场景图匹配中取得了最高的节点召回率和精确率,证明三元组增强GNN能够在学习局部拓扑关系的同时区分空间分布。其他GNN骨干表现欠佳,值得注意的是几何Transformer性能甚至低于原始GAT。在点云配准任务中,几何Transformer[41]用于编码超点且表现优异;然而在场景图配准任务中,语义节点具有更大的几何方差,许多节点被部分观测或存在过分割,这可能为节点中心引入额外噪声,进而影响几何嵌入学习效果,导致性能下降。
3) 形状融合评估: 我们进行了消融实验以评估形状特征的影响。在无融合设置中,使用三元组增强GNN后的节点特征 {¹Xᴬ, ¹Xᴮ} 进行节点匹配。
在早期融合设置中,形状特征在三元组增强GNN之前融入节点特征 [⁰Xᴬ/ᴮ‖Fᴬ/ᴮ];而在晚期融合中,形状特征在GNN之后融入节点特征 [¹Xᴬ/ᴮ‖Fᴬ/ᴮ]。
我们在图9中可视化了使用不同融合方法的场景图匹配结果。如图所示,在无形状融合模式下,部分货架和桌子被错误匹配,但在形状融合后因其形状差异而被正确剔除。
此外,一些在无融合模式下因语义噪声未被匹配的物体,在形状融合后实现了正确匹配。这证明了融合形状特征能够有效提升场景图匹配性能。
表X总结了不同融合策略的定量结果。数据显示,晚期融合策略在图匹配任务中表现最优。
这表明形状特征对学习图拓扑结构并非最关键,但在三元组增强GNN之后进行融合能发挥更显著作用。本工作采用图2所示系统结构中的晚期融合策略。