I2P论文学习

论文《Adaptive Agent Selection and Interaction Network for Image-to-point cloud Registration》
整体架构图如下

首先是对点云和图像进行处理

初处理

首先是特征提取

对点云进行KPFCNN处理，主要核点卷积，通过这种方式来进行提取特征，处理后我们称这个特征为Fp

对图像进行ResNet和傅里叶变换，ResNet就是残差网络，这里讲一下傅里叶变换

傅里叶变换使用的公式如下

通过使用傅里叶变换，我们可以得到图像的幅度和相位，其中

幅度是指对应图像的亮度、纹理信息（比如木纹的明暗变化）；

相位是指对应图像的结构、边缘、轮廓线性（比如桌子的边框、椅子的形状）。

然后我们再对这个进行傅里叶逆变换

就可以得到我们的相位纹理图，最终得到的 “相位图”，看起来可能是模糊的，但物体的形状、边框、角落等几何特征会非常清晰，这样就与3D点云的特征非常贴合，因为点云关注的也多是形状、物体结构这些而非颜色和纹理。

然后将这个相位纹理图经过三层轻量化的CNN处理提取相位，再和Resnet处理后的图像进行融合就得到了图像的特征，我们称之为Fi

这一部分主要是对输入的图像和点云进行交互学习相互特征。

这里我们初始化一组冗余的可学习查询，表述为Qi，然后这些注意力通过n层注意力与图像和点云特征进行交互，所得的聚合被称为QA，然后每个查询都有对应的评分，我们通过Top-k算法找出排在前列的，称之为Qs_a。

这里输入来自上一层的点云，然后主要是分为三部分进行奖励，第一部分是图像相似度，第二是点云相似度，第三是预测精度，将这三个综合起来，就得到了每个查询的基础价值分。

在局部阶段，实现前两部分的奖励实现，Fq是指查询的特征，Fi和Fp是图像和点云的特征

在全局阶段，这里使用的是减少损失的贡献程度来评估

然后我们会定义一个权重，以此来平衡局部和全局阶段，这个权重系数的由来如下

然后为我们使用公式进行计算最终的奖励分数

对每个分数我们使用sigmoid激活函数将其归一化到[0,1]。

然后为了稳定训练，我们加入软掩码策略，它会对每个定义分配一个softmask，然后在这里使用伯努力采样的方法，而非使用Top-k得到最高分，这样就避免了只选少数高分查询

为了避免所有代理都关注同一特征，这里加入了熵约束，使得关注点不同，举个例子就是有关注桌子的，也有关注椅子的。熵定义如下

在前两个阶段进行过后，模块已经学会了基本的微调方式，我们可以使用SQ选择出最大程度提升模型匹配效果的代理进行聚合，选择出效果比较好的排在前列的代理。

在上一模块，我们获取了携带点云、图像信息的可靠代理，接下来我们将使用这些代理作为桥梁来优化transformer模块

这里我们的可靠交互代理会提前筛选出信息特征，减少噪声，生成具有特征改进的更清晰注意力图。这里通过在交互前过滤信息源并仅保留高质量查询来进行注意力计算，进而提高了鲁棒性和判别能力。

给代理分配权重Wq，相乘就是我们的查询Q，给点云特征Fp分配权重Wp，相乘就得到了Kp，同理Fp和权重Wp得到Vp，同理得到图像的Ki、Vi，接下来就是图像到智能体注意力（IAA）和点到智能体注意力（PAA）的计算了

通过这些注意力图，可以得到融合特征Fp和Fi。基于特征相似性建立对应关系，利用细颗粒度进行密集匹配，最后应用Pnp-RANSAC算法估计出可靠的刚性变换。

posted @ 2026-01-12 13:37 quan9i 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部