我们提出了一种基于学习的语义场景图配准方法。

该方法采用三元组增强的图神经网络层，旨在捕捉语义节点的拓扑关系及空间感知能力。

与普通GNN网络相比，该设计在保持4自由度全局变换不变性的同时，提供了更具描述性的语义节点表征。

• 形状网络为每个语义节点生成形状特征，并将其融合至节点特征表示中，以提升场景图匹配性能。得益于语义节点的稀疏特性，计算复杂度和GPU内存消耗显著降低。

• 我们提出了一种面向场景图学习的自动数据生成方法。通过利用视觉基础模型[18]-[20]和语义建图模块[11]构建语义场景图，这种创新数据生成方案仅需配准的RGB-D序列即可训练网络，摆脱了对真实标注数据的依赖，并显著缩小了训练数据与真实场景数据之间的领域差距。

• 基于3RScan[29]真实场景重建数据，我们与基线模型[17]进行了全面对比验证。

实验表明本方法在取得显著更高配准召回率的同时，GPU资源消耗大幅降低。

• 如图1所示，我们将成果部署于双智能体SLAM系统，实现由粗到精的场景图配准。

在通信带宽需求极低的前提下，本方法的配准成功率显著优于手工语义描述符[15]，较NetVLAD与LightGlue[5][7][30]的组合方案提升0.7%。

当前最先进的视觉SLAM系统 [2], [23], [31] 依赖 DBoW [32] 进行回环检测和相机位姿配准。

例如，在 VINS-Mono [31] 中，如果 DBoW 检测到一个回环候选，它会提取 BRIEF 描述符并在回环图像之间执行暴力匹配。

随后，VINS-Mono 使用基于 RANSAC 的 Perspective-n-Point [33] 方法进行图像配准。

为了剔除错误的回环或不准确的配准，视觉SLAM系统在位姿图 [23], [31] 或共视图 [2] 中采用了综合的几何验证。

近年来，基于学习的图像匹配方法被提出，并主要提升了视觉SLAM中的配准性能。

SuperGlue [6] 和 LightGlue [7] 使用注意力层编码图像特征并搜索特征对应关系。

NetVLAD [5] 与它们结合，以由粗到精的方式 [30], [34] 进行回环检测。

这些基于学习的方法在视觉SLAM中的性能显著优于传统的回环检测方法。

然而，在多智能体SLAM中，基于学习的图像配准方法需要相当大的通信带宽。

此外，在存在显著视角差异的情况下，它们常常导致错误的配准结果。

鉴于视觉SLAM能够生成稠密点云地图[35]，其可与点云配准技术结合以计算全局变换。

传统的点云配准方法[36]涉及从输入点云中提取FPFH特征[37]，并使用高斯-牛顿法求解位姿估计问题。

随后，研究者提出了鲁棒位姿估计器[28], [38]，即使在存在大量异常值的情况下也能估计位姿。

与此同时，大量基于学习的点云配准方法[39]–[41]被提出。

这些方法使用3D卷积网络[42]或PointNet[43]作为点云骨干网络，利用提取的特征建立对应关系，随后通过奇异值分解（SVD）或加权SVD[44]以闭式解求解相对位姿。

在基于学习的点云配准方法中，GeoTransformer[41]在3DMatch数据集[45]上展现了优异的配准性能，该数据集包含了真实室内环境的点云局部扫描数据。

尽管性能卓越，但GeoTransformer需要对超点进行特征编码，并在这些超点上使用注意力层[46]。

由于超点的密度较高，注意力操作需要大量的GPU资源，这限制了其在大规模场景中的可扩展性。

为了将场景图集成到视觉SLAM中，首要步骤是构建场景图。

Kimera[23]及其系列工作是该领域的先驱。通过使用Mask R-CNN[21]，Kimera将图像中获得的语义分割信息融入度量-语义地图。

该地图基于TSDF体素网格地图[47]构建，并遵循SemanticFusion[22]的方法进行集成。

随后，Kimera将稠密度量-语义地图聚类为不同层级的表示：物体、场所、楼层和建筑物。

后来的S-Graph[48]和S-Graph+[49]通过分割3D平面来构建场景图，并将其进一步集成到可优化的因子图中。

语义场景图弥合了机器人感知与人类感知之间的差距。它被视为未来空间智能的空间感知引擎[50]。

随着视觉基础模型的发布，语义建图[51],[52]的最新进展越来越多地整合这些模型来重建3D语义地图。

其中，FM-Fusion[11]专注于室内环境的RGB-D SLAM，它集成来自RAM-Ground-SAM[18]-[20]的物体检测结果来重建实例感知的语义地图。

与Fusion++[9]类似，FM-Fusion在独立的TSDF子图中表示每个语义实例。它

使用贝叶斯滤波器融合语义标签，同时独立建模来自RAM[18]和GroundingDINO[19]的测量似然。

通过利用视觉基础模型，FM-Fusion在ScanNet基准测试上相比Kimera实现了更准确的语义实例分割。

基于语义实例，我们构建了不依赖真实标注的更高质量语义场景图。

然而，RAM-Ground-SAM仍会预测带有噪声的实例分割和错误的语义标签。

与使用ScanNet或3RScan标注生成的场景图相比，使用FM-Fusion重建的场景图仍存在显著噪声。

D. 语义数据关联

语义表示之间的数据关联是确保成功配准的最关键步骤。

在语义SLAM研究中，此步骤依赖于显式表示方法。

Bowman等人[12]使用边界框表示每个物体。若两个物体节点属于相同语义类别且其交并比超过预设阈值，则判定为匹配。

基于Kimera框架，Hydra[15]通过聚合邻近物体的语义直方图构建手工语义描述符，并据此计算节点相似度。

近期提出的SlideSLAM[53]则根据相同语义类别与相似边界框形状判定物体相似性。

为将拓扑信息融入语义数据关联，X-View[14]引入随机游走描述符记录路径中的语义标签，以显式表征拓扑信息。

其通过统计相同RWD行数计算相似度得分。

为增强RWD的空间描述能力，Lin等人[10]将距离信息整合至RWD排列中，Liu等人[55]则利用空间先验构建RWD。

为降低节点误匹配率，部分方法[56]显式构建边描述符验证匹配节点间的几何一致性，Julia等人[57]则采用节点三元组进行匹配正确性验证。

上述语义相关描述符均通过标签、边界框和拓扑等属性显式构建，而非从这些属性中隐式编码生成。

这些方法在特定场景有效，但在真实环境评估中易遭遇边缘案例。

例如图1所示的不一致场景图中，需为每个语义类别设置拓扑或边阈值参数，调参工作量巨大。

受基于学习的图匹配模型[58]启发，我们认为通过神经网络学习语义数据关联是重要方向。

最新版Hydra[50]提出使用图神经网络编码物体节点（但未包含形状特征）。

据我们所知，SGAligner[16]是首个专注于场景图匹配学习的研究，其编码语义节点的多模态信息（语义标签、中心位置、关系标签）。

随后SG-PGM通过将形状特征融入场景图学习增强该方法，其从各语义节点采样点云并使用GATv2[25]聚合特征。

这两个研究均采用GeoTransformer的几何相关层（超点匹配、点匹配、局部到全局配准层），并在依赖真实标注构建场景图的3RScan数据集[29]上训练评估。

我们在表I中对语义数据关联方法进行了全面总结。

我们的方法与以往语义SLAM工作存在根本性差异——后者主要重构显式语义表示并创建手工描述符，而我们则采用学习式编码方法。

与最相似的SG-PGM相比，我们存在三大核心区别：

首先，三元组增强的GNN通过提升空间感知能力实现更优的语义节点编码；

其次，我们避免使用注意力层聚合点云特征，显著降低了GPU内存占用并加速推理；

最后，我们在真实SLAM环境中开展评估，而SG-PGM等现有学习方案仅在使用真实标注的场景图上测试性能。

通过将数据生成流程与语义建图[11]相结合，我们实现了基于语义建图场景图的端到端训练与评估。

如图2所示，SG-Reg由场景图网络和鲁棒位姿估计器组成。

场景图网络读取一对语义场景图 {G^A, G^B} 作为输入，并生成节点匹配 M 以及点对应关系 C。

利用这些分层匹配，位姿估计器计算两个场景图之间的相对变换 T^A_B。以下我们总结方法中使用的场景表示：

显式表示：我们将语义场景图表示为 G = {V, E}，其中 V 是节点集，E 是边集。一个语义节点 v_i 具有以下属性：
- s 是其文本格式的开放集语义标签。
- b ∈ R³ 表示其边界框的长、宽、高。
- o ∈ R³ 是其几何中心。
- P 是其点云。
隐式表示：它融合了多种模态的信息。

语义特征 (f_sem)：通过预训练的语言模型（如BERT）从文本标签 s编码得到的高维向量，用于捕获语义信息。
拓扑特征 (f_topo)：通过图神经网络（GNN）聚合节点自身及其邻域节点的信息（如位置、语义）得到的特征，用于描述节点在场景图中的局部结构关系。
形状特征 (f_shape)：从节点的点云 P中提取的特征，用于描述物体的几何形态。

形状特征：
节点特征：
点特征：
符号约定：我们使用小写符号表示单个节点的特征，大写符号表示整个场景图的特征。例如，

IV. 场景图网络

A. 语义场景图构建

语义场景图使用 FM-Fusion [11] 构建。我们提取其语义实例并构建场景图中的语义节点集 V。

那些过小或观测不足的实例会被排除。

对于一个节点 v，其语义标签 s 来自 FM-Fusion 的预测结果。

该节点可能被 GroundingDINO 多次观测到，FM-Fusion 会融合多次标签测量值来预测最终标签 s。

点云 P 通过 3D 插值从实例级的子图中提取。

此插值过程类似于移动立方体法 [59]，但仅对拥有三个相邻体素的点进行插值。

我们从 P 中提取节点中心 o。

随后，使用 O'Rourke 算法 [60] 根据 P 计算最小包围盒。

记录包围盒形状 b ∈ R³，代表其长、宽、高。

我们忽略每个语义节点的方向以避免引入额外噪声。

最终，构建一个语义节点 v = {s, b, o, P}。

我们为其他节点构建相应表示并生成节点集 V。

一旦节点集 V 构建完成，我们计算每对节点之间的距离。

该距离可根据节点中心计算。

如果距离小于阈值 τ_d，则在它们之间连接一条边。

距离阈值 τ_d 由节点的形状大小决定，这意味着较大的节点会连接到更远距离的节点以及更多数量的节点。

我们记录生成的边集 E。

如图 3 所示，我们可视化了一个场景图 G = {V, E} 的示例。

/输入的语义场景图 {G^A, G^B} 之间存在 4 自由度的相对变换，包括 3D 位置和相对偏航角旋转。

横滚角和俯仰角的相对旋转已由视觉-惯性 SLAM [31] 准确估计.

B. 三元组增强的图神经网络（GNN）

首先，我们对GNN模块的输入特征进行初始化。我们使用BERT[24]对语义标签进行编码，并使用单层MLP对边界框尺寸进行编码。节点

其中

当前的注意力GNN在其自注意力聚合机制中引入了相对位置编码（RPE）[7]：

其中

然而，RPE在3D几何任务中存在一个关键局限：

它对偏航角旋转不具有不变性。

具体而言，当输入图经历偏航角旋转变换时，RPE无法产生旋转不变的特征，而这在此类场景的鲁棒匹配中至关重要。

为解决这一挑战，我们设计了一种三元组描述符来增强GNN的学习能力。

该三元组描述符被设计为对4自由度全局变换具有不变性。

如图3所示，我们将语义节点

在计算

首先定义相对位置向量

gij,k 是一个几何嵌入，它通过一个多层感知机（MLP）将三元组特征映射到高维空间：

其中，三元组边的长度

在阐述了三元组特征的构建过程后，我们现在说明如何将其集成到 GNN 中。

三元组增强的 GNN 读取初始化的节点特征

为为计算消息特征

注意力得分 αij,k 通过对所有查询-键相似度进行softmax计算得到：

与普通的图注意力网络[25]相比，三元组增强了GNN的空间感知能力。

与结合了RPE[7]的GNN相比，我们的方法确保了特征对偏航旋转保持不变性。

此外，我们的过程更贴近人类直觉。

人类通过具有空间感知的物体拓扑来描述房间布局以识别之。

例如，一个人可能会描述他办公室里的沙发面朝电视机，并且其左侧有一张桌子。

我们的三元组描述符通过空间感知捕捉局部拓扑，模拟了人类直觉。

在SLAM领域，虽然已有类似的三元组描述符[62]–[65]被提出，但它们是以显式方式表示三元组的。

我们认为，在我们所针对的跨域场景中，三元组是一种相对稳定的局部结构。

即使在有噪声的场景图下，如果一个节点特征聚合了一个或两个正确的三元组，它仍然有很大可能找到正确的匹配。

C. 形状网络

形状网络生成两个层级的几何特征。

它包含一个学习点特征的点云骨干网络，以及一个学习节点级形状特征的形状骨干网络。

给定一对场景图 {G^A, G^B}，我们提取它们的全局点云 {X, Y}，其中每个点都标注了其所属的父节点索引。

我们将这些点云下采样为四个分辨率 {^lX, ^lY}_l，其中层索引 l = {0, 1, 2, 3}。在下采样过程中，父节点索引保持不变。

图4：形状网络结构及其点聚合核的可视化。

点云骨干网络使用网格下采样来决定聚合核，这些核小而密集。

形状骨干网络遵循实例分割来创建聚合核，这些核大而稀疏。

在接下来的步骤中，我们以 {^lX}l 的编码为例进行说明，{^lY}l 的处理方式与之相同。

如图4所示，点云骨干网络在多个层级生成点特征。

我们仅将第二精细层级的点特征作为隐藏状态特征 H^A 使用。

我们没有采用最精细层级的点云特征，因为正如先前工作[41]所指出的，这些特征是冗余的。

利用在 ^1X 中维护的节点索引，我们可以直接从 H^A 中采样节点级别的点。

在采样过程中，我们仅为每个节点保留 K_p 个点。

如果某个节点的点数量过少或过多，我们通过随机采样或零填充将数量调整至 K_p。

采样得到的节点级点云和特征分别记为 P^A 和 Z^A。

需要注意的是，形状融合可以在三元组-GNN之前（早期融合）或之后（晚期融合）进行。

我们将在第七章节D3的实验中研究早期融合和晚期融合的影响。

先前的一些点云配准工作[41][39]也采用点云骨干网络来提取点云特征。

我们方法的独特性在于在点云骨干网络之后增加了一个形状骨干网络。

这种方法具有两个关键优势。

首先，它降低了点云骨干网络输出特征的密度。

在以往的点云学习方法[39][41]中，它们在点云骨干网络后的隐藏状态特征上运行多个注意力层。

由于隐藏状态特征分布密集，它们的注意力层消耗巨大的GPU内存，并且只能在小规模场景上运行。

其次，形状骨干网络生成形状特征来表示每个语义节点的几何属性，使得形状特征能够与其他模态特征直接融合，从而创建紧凑的语义节点特征。

D. 分层图匹配

通过学习得到的节点特征及其点特征，我们可以运行分层图匹配层来搜索对应关系。如表II所示，我们总结了节点分配矩阵

接下来，我们阐述每个层级分配矩阵的构建。

在先前的工作中，SuperGlue [6] 将图匹配问题表述为一个可微分的部分分配问题，并通过 Sinkhorn 算法 [26] 确定最优匹配。

我们在图匹配中采用了类似的技术。在节点匹配层，我们按如下方式计算节点相似度矩阵和节点分配矩阵：

E. 训练

1) 损失函数：我们按如下方式训练网络：

提出 L_gnn 是为了监督三元组-GNN 和节点匹配层，而提出 L_shape 是为了监督形状骨干网络。

具体而言，

其中，

V. 鲁棒位姿估计器

尽管上述框架在应对极低内点率配准时表现出色，但在处理较高内点率和重复对应模式时，其效率和鲁棒性可能会受到影响。

为解决这些局限性，我们引入了两种实用策略，旨在同时提升系统的效率和鲁棒性。

首先，虽然最大团剪枝法[69]在低内点率下展现出卓越的鲁棒性，但其计算成本在实践中随内点率线性增长。

相比之下，GNC在较高内点率下能提供相当的精度且执行更快。

因此，我们的混合方法仅在GNC估计的内点率低于某个特定值（例如0.3）时才激活最大团剪枝。

否则，我们直接采用GNC的预测结果作为候选变换。该策略实现了最优的速度-精度权衡。

其次，重复结构容易产生密集且内部一致的点对应关系，这可能形成一个大的异常值团，从而使基于最大团的内点选择策略[38]失效。

为缓解此问题，我们对对应关系应用非极大值抑制。

对于对应关系

异常值剔除和鲁棒位姿估计器不存在泛化问题。它们保证了在可能具有高异常值率的跨域评估中的配准性能。

为展示场景图配准如何助力SLAM任务，我们将SG-Reg集成至一个双智能体SLAM系统中，用于检测回环并对场景图进行配准。所实现系统的结构如图5所示。

1) 由粗到精的通信：我们引入一种由粗到精的通信策略，以实现精度与通信带宽间的最佳平衡。

初始阶段，每个智能体以稳定频率（例如1 Hz）广播其粗粒度消息，使SG-Reg能够匹配语义节点。
在某个查询帧，如果匹配的节点数达到最小值，该智能体会向远程智能体发送请求消息。
作为响应，远程智能体会发布稠密消息，使得请求方智能体能够执行图2所示的完整配准流程。
为防止稠密消息发布过于频繁，我们在允许发送请求消息的查询帧之间设定了最小时间间隔。

为展示场景图配准如何助力SLAM任务，我们将SG-Reg集成至一个双智能体SLAM系统中，用于检测回环并对场景图进行配准。所实现系统的结构如图5所示。

1) 由粗到精的通信：我们引入一种由粗到精的通信策略，以实现精度与通信带宽间的最佳平衡。

初始阶段，每个智能体以稳定频率（例如1 Hz）广播其粗粒度消息，使SG-Reg能够匹配语义节点。
在某个查询帧，如果匹配的节点数达到最小值，该智能体会向远程智能体发送请求消息。
作为响应，远程智能体会发布稠密消息，使得请求方智能体能够执行图2所示的完整配准流程。
为防止稠密消息发布过于频繁，我们在允许发送请求消息的查询帧之间设定了最小时间间隔。

下方我们重点说明来自智能体A的广播消息格式：

粗粒度消息： {X^A, O^A}
稠密消息： {X^A, O^A, X}

其中，节点特征

为提升接收粗粒度消息时的性能，我们在程序中维护了最新的点对应关系

2) SG-Reg部署：我们使用 LibTorch 实现了SG-Reg中的网络模块，从而能够从C++可执行程序中调用神经网络。

我们将SG-Reg与其他SLAM模块集成。

SG-Reg中的每个网络块被独立部署，允许SLAM系统在融合或不融合形状特征的情况下匹配语义节点。

3) SLAM集成：如图5所示，我们使用 VINS-Mono [31] 计算视觉-惯性里程计。

RAM-Ground-SAM [18], [19], [70] 处理RGB序列并在实验前保存其预测结果。

FM-Fusion [11] 读取来自RAM-Ground-SAM的预备数据并实时运行。

VII. 实验

我们进行了一系列实验来评估我们的方法。

这些实验揭示了我们的方法具有以下优势，这些优势与我们在第一章中声明的创新点相符：

场景图匹配：通过第七章节D部分讨论的三元组增强GNN和形状特征融合，实现了性能提升。
泛化能力：我们的方法的配准能力在跨域数据集（第七章节C部分）和真实世界SLAM系统（第七章节E部分）中得到了验证。
高效性：编码稀疏场景表示在第七章节C部分中所需GPU资源显著减少，在第七章节E部分中提升了通信效率，并在第七章节F部分中加快了推理速度。
自监督训练：我们在第七章节A(4)部分阐述的训练方法，涉及从已配准的RGB-D序列自动生成数据。

3RScan数据集提供了真实的场景图标注[16][17]，我们称之为3RScan-GT。

此外，考虑到真实标注与实际数据之间的差异，我们使用语义建图[11]方法自动标注这两个数据集，并分别称之为3RScan-Mapping和ScanNet-Mapping。

训练集和测试集的划分遵循数据集的原始设置。

如表III所示，我们分别使用3RScan-GT和ScanNet-Mapping训练基线方法和我们的方法，并在第七章节C部分评估它们的跨域性能。

除了重建场景外，我们还在定制的双智能体SLAM基准测试中评估我们的方法。

我们的场景图配准模块被部署到SLAM系统中，并以由粗到精的策略在两个智能体之间配准场景图。

该基准测试基于在真实世界环境中采集的RGB-D和惯性序列数据。

2) 评估指标：

节点召回率（NR）和节点精确率（NP）：
用于评估场景图匹配性能。如果节点点云之间的交并比（IoU）高于阈值 τiou=0.3，则视为真正例（TP）节点对，否则为假正例（FP）对。
然后，我们可以计算NR和NP，类似于图像匹配任务[6]中的召回率和精确率。
配准任务指标：遵循GeoTransformer[41]，使用内点率（IR）和配准召回率（RR）来评估精度。
根据预测的变换，如果对齐点云之间的均方根误差（RMSE）小于阈值（例如，RMSE < 0.2m），则认为该预测是一次成功的配准。配准召回率是成功配准的比例。

3) 基线方法：

我们将配准性能与 SG-PGM [17] 和 GeoTransformer [41] 进行比较。

在双智能体 SLAM 中，我们的方法与 Hydra [15], [50] 和 HLoc [30] 进行对比。

Hydra 和 HLoc 在基准测试中以离线方式运行。

4) 训练数据：在 ScanNet-Mapping 数据中，每个 ScanNet 序列被分割成多个子序列。

我们选择一对子序列分别作为源序列和参考序列。

每对场景图都施加了一个随机的 4 自由度变换。

我们在每个子序列上运行 FM-Fusion。

因此，我们可以获得大量用于训练和评估的场景图对。

由于未使用 ScanNet 的真实标注，我们声称我们的方法采用了自监督的场景图训练。

该训练方法可以扩展到其他室内 RGB-D SLAM 数据，并且不需要真实的语义标注。

在 3RScan-GT 数据中，我们直接应用了 SGAligner [16] 的数据生成方法。

5) 实现细节：我们使用 Adam 优化器训练网络，学习率为 0.01。

训练数据包含 1990 对从 ScanNet-Mapping 和 3RScan-GT 数据集重建的场景图。

形状网络的预训练进行 64 个周期，其余训练进行 80 个周期。

我们在配备 Intel-i7 CPU 和 Nvidia RTX-3090 GPU 的台式计算机上运行训练过程和所有实验。

B. 3RScan 基准测试

本节旨在评估不同方法在使用完全精确的训练和验证标注时的精度差异。我们使用官方发布的版本。

我们对训练好的SG-PGM模型进行了两处调整。

首先，我们使用BERT对其语义标签进行编码，这与我们的方法相同。

SG-PGM的原始版本是从其每个语义标签生成语义直方图，并构建语义特征向量。

由于BERT是更强的语义编码器，我们将其应用于SG-PGM以确保公平比较。

其次，SG-PGM会读取边的关联关系标签。

我们将所有关联关系标签都设为"无"。

这是因为3RScan-Mapping中的场景图不提供任何关联关系标签，因此我们在两个版本的训练中均将其设置为"无"。

如表IV所示，我们的节点召回率和节点精确度显著高于SG-PGM。

我们的配准召回率略高于SG-PGM。

这反映出我们在语义节点匹配方面保持了决定性优势。

然而，我们在配准召回率上的优势不那么显著，这可能是因为使用真实语义标注会提高节点匹配的准确性，使得我们的方法无法完全展现其鲁棒性和优越性。

对于场景图配准任务，真实数据总是包含分割差异和错误的语义标签预测，这会极大影响准确性。

因此，我们认为在3RScan-GT上训练无法反映场景图配准方法的实际可用性，而只能显示其精度的理论上限。

本节的实验结果仅作为参考，用以证明即使在理想应用场景下，我们的方法也优于基线方法。

C. 跨域基准测试

深度学习方法常常受限于其泛化性能。

考虑到我们的方法旨在应用于机器人的长期使用，我们认为有必要评估其跨数据集的性能。

在本节中，我们详细评估了我们的方法以及两种基线方法在一个与训练数据集不同的验证数据集上的泛化能力、准确性和效率。

1) 基线设置：

我们使用官方发布的 GeoTransformer [41] 和 SG-PGM [17] 版本。

我们使用 ScanNet-Mapping 数据对它们进行训练，并在 3RScan-Mapping 数据上进行评估，以测试它们在不同数据域中的泛化能力。

我们对 SG-PGM 的实现进行了与第七章节B部分类似的修改。

我们保持所有 3D 骨干网络的参数（如体素大小和点特征维度）一致。

同时，我们关闭所有方法的 ICP [72] 精修步骤以确保公平比较。

2) 配准精度：

我们将来自 3RScan-Mapping 的 100 对场景分为三组：

76 对小场景对、13 对中等场景对和 11 对大场景对。

分组依据是每对场景中最大的点数。

我们总结了每个分组的场景点数范围，如表 V 所示。

如图6所示的中等规模场景，3RScan-Mapping中的语义场景图表现出显著的语义噪声，包括过分割的物体和带有噪声的点云重建。

与SG-PGM相比，我们的方法生成了更多正确的节点匹配和更少的错误节点匹配，展现了比SG-PGM更精确、更鲁棒的场景图匹配性能。

与GeoTransformer相比，我们的语义节点比GeoTransformer中的超点稀疏得多。得益于强大的描述性特征，我们的节点匹配精度高于GeoTransformer中的超点匹配精度。

为了讨论配准性能，我们引入了伪内点的定义，即经过异常值剔除后并被估计器视为内点的对应关系。

如第五章节所述，我们通过最大团剔除点对应关系中的异常值。

类似地，GeoTransformer和SG-PGM通过基于加权SVD[44]的局部到全局配准[41]方法来剔除异常值。

基线工作和SG-Reg都存在伪内点。我们计算了伪内点率，即伪内点中真实内点的比例。

如图6所示，我们的内点率和伪内点率均高于GeoTransformer，表明了点匹配更准确。

在最终的配准结果中，SG-Reg和GeoTransformer都成功对齐了场景。

然而，在SG-PGM中，对抗性异常点的存在导致了配准失败。

如图6所示，这些异常点在几何上具有一致性，因此更难被剔除。

尽管进行了异常值剪枝，这些对抗性异常点仍然存在于伪内点中。

虽然对抗性异常点在GeoTransformer和我们的结果中也存在，但SG-PGM尤其容易受到影响，因为其高异常值比率导致无法有效剔除它们。

此外，SG-PGM的异常值剪枝方法依赖于批量加权SVD[44]，这可能限制了其消除对抗性异常点的能力。

该方法搜索包含最多伪内点的小批量对应关系。

因此，这个包含对抗性异常点的小批量很可能获得最高的置信度得分，从而导致错误的SVD预测结果。

如表VI所示，我们的整体性能远优于SG-PGM。我们在各个层级的匹配和最终配准结果上都超过了SG-PGM。

考虑到我们的方法和SG-PGM都采用了显式融合节点特征和形状特征的策略，这一显著的精度差距进一步证明了我们编码方法的科学有效性。

这也验证了我们的方法能够跨数据分布配准场景图，展现出强大的泛化能力。

与GeoTransformer相比，我们的方法实现了略优的性能，将配准召回率提高了4.8%，内点率提高了5.6%。

特别是在中等规模场景中，我们显著优于GeoTransformer，配准召回率高出15.4%。

这表明引入语义信息进行配准的主要优势在于能够在大规模场景中获得更高的召回率。

在大型场景中，存在频繁出现的相似几何结构，如来自多把椅子或多本书的点云。

仅依赖3D点特征来配准大型场景极具挑战性。

通过融入语义信息，我们增强了编码3D特征的描述能力。

我们还报告了伪内点率来佐证我们的改进。

如表VII所示，我们的伪内点率高于SG-PGM和GeoTransformer。

更高的伪内点率增加了位姿估计器预测准确变换

定量结果分析如表IX所示，我们的方法在场景图匹配中取得了最高的节点召回率和精确率，证明三元组增强GNN能够在学习局部拓扑关系的同时区分空间分布。其他GNN骨干表现欠佳，值得注意的是几何Transformer性能甚至低于原始GAT。在点云配准任务中，几何Transformer[41]用于编码超点且表现优异；然而在场景图配准任务中，语义节点具有更大的几何方差，许多节点被部分观测或存在过分割，这可能为节点中心引入额外噪声，进而影响几何嵌入学习效果，导致性能下降。

摘要—

I. 引言

II. 相关工作

A. 图像配准

B. 点云配准

C. 场景图构建

D. 语义数据关联

III. 预备知识

IV. 场景图网络

A. 语义场景图构建

B. 三元组增强的图神经网络（GNN）

C. 形状网络

D. 分层图匹配

E. 训练

V. 鲁棒位姿估计器

VII. 实验

D. ScanNet 基准测试

​​摘要​​—

​​I. 引言​​

​​II. 相关工作​​​​

A. 图像配准​​

​​B. 点云配准

C. 场景图构建

​​D. 语义数据关联​​

​​III. 预备知识​

​​IV. 场景图网络​​​​

A. 语义场景图构建

​​B. 三元组增强的图神经网络（GNN）​

​​C. 形状网络

D. 分层图匹配​

​​E. 训练​​​​

​​V. 鲁棒位姿估计器​

​​VII. 实验​​

​​D. ScanNet 基准测试​

摘要—

I. 引言

II. 相关工作

A. 图像配准

B. 点云配准

D. 语义数据关联

III. 预备知识

IV. 场景图网络

B. 三元组增强的图神经网络（GNN）

C. 形状网络

D. 分层图匹配

E. 训练

V. 鲁棒位姿估计器

VII. 实验

D. ScanNet 基准测试