2025.7.6学习日记【又是摸鱼🐟的一天】

1.卷积与转置卷积

1.1 卷积

卷积的本质其实是一种滑动窗口机制,卷积出的特征取决于原序列大小和滑动窗口的大小.在数学上需要将滑动窗口中的数据进行180的调转,才能达到数学概念上的卷积.
在二维图像上,卷积将原图X变为特征图Y.
多通道图又有不同的卷积方式,包括分通道卷积,全通道卷积.采用分通道卷积,滑动窗口也需要分通道,本质上将多通道处理成多次的2维卷积,该方法能保持通道数不变;采用全通道卷积,集合三个通道的信息,该方法会使通道数变为1

1.2 转置卷积

逆卷积又称为转置卷积,操作与卷积操作类似,也是基于滑动窗口机制.但是转置卷积的padding和stride参数与普通卷积不同.

  1. 参数解读
  • padding(图示为0)
    padding是图像(特征图)四周填充的行,列数(给图像四周),具体来讲就是给图像四周填充kernel_size-padding-1个行、列
    image

  • stride(图示为1)
    stride是图像(特征图)的每个像素(单位)之间的距离,具体来讲给像素之间添加stride-1个元素0.
    image

  1. 转置卷积步骤
    image
    【注】上下镜像翻转和左右镜像翻转的效果等同于将图像旋转180°一致,与SE3内容相近(旋转,平移,反射)
  2. 图示说明
    image
    输入特征图A:3×3
    卷积核:卷积核大小为3,stride为1,padding为1

1.3 应用

卷积一般用于下采样,缩小图像分辨率;转置卷积用于上采样,增大图像分辨率,两者通常一起被用于做特征融合.

2.VGGT

2.1 论文解读

  • Introduction
    论文在Introduction部分介绍到,VGGT与CV和NLP领域的大型模型同源
  • RelatedWork
  1. 论文在Relatedwork中介绍到SFM问题(Structure from motion),获得相机位姿重建稀疏点云,以及在解决传统SFM问题时,CLOMAP是流行的传统框架。
  2. 此外论文还介绍到了MVS问题,MVS是在SFM算法得到的稀疏点和相机位姿基础上进行,获得相机深度重建密集点云,
  • Method
  1. 论文在Method中提及到主模型f根据图片数输出结果数,例如输入3张图片,输出的深度结果为[1,3,350,518,1] ([B,N,H,W,C])
  2. 注意到主模型f输出的track并非为轨迹,而是特征图,使用了另一个网络T来实现i张图上第j个的2d轨迹点的预测。此外这个网络T与f是联合训练的
  • Appendix
    作者在附录中提及到,VGGT主模型f使用了24个blocks,每个blocks都带有frame和global。此外还有一些需要注意的细节,我将从以下几个方面说明
  1. 架构:
    对于每个block来说,作者使用的是ViT-L模型,注意力的特征维度为1024;
    对于图像的token化,作者使用的是DinoV2论文的做法;
    对于上采样,作者使用的是Depth anythingv2论文的做法,将序号为4,11,17,23的block送入DPT
  2. 训练
    对于训练数据来说,作者采用了DUSt3R的做法,每个场景选择2-24帧,并保持批次中48帧的恒定总数

2.2 VGGT模型参数

这一部分在7.4号的1.3部分有写,补充一部分

  • DPTHead
    resize_layers-尺度调整层:
    该组件负责调整不同中间特征的分辨率,包含四种操作,用到了三种组件,分别为:
    image
    scratch-特征融合网络:
    特征融合网络通过_make_scratch函数创建,包含
    image

3.任务清单

  • [×]复现DINO论文,至少要到数据集的处理方法
  • [×]密集点云分割的论文,至少要看到可视化的实现方法
posted @ 2025-07-07 10:03  BingUw  阅读(47)  评论(0)    收藏  举报