2025.7.22学习日记【没写多少,不过为了日期的完整性,还是发一下】

1.EDGE浏览器快捷操作

介绍一点有关EDGE浏览器的快捷操作内容,希望对于大家的科研或者生活有所帮助

1.1 单页面操作

1.1.1 查找与逐项查找

在EDGE浏览器中可以使用CTRL+F开启查找功能,开启完CTRL+F查找功能后,还可使用Enter与/Shift+Enter进行逐项查找,
【注】EDGE还可以通过使用CTRL+G进行逐行查找,但详细米娜桑肯定有用VSCODE的习惯,还是推荐使用Enter进行逐行查找

1.1.2 页面元素操作

浏览框操作使用CTRL+E,URL操作使用ALT+D

1.2 多页面操作

2.VGGT

2.1 聚合器处理细节

关注VGGT聚合器中的代码可以发现,在代码中出现了如下的处理。简单来说处理block_num(24)次,每次将处理完毕的结果放到列表中,使用最后一次的结果,作为预测部件camera_head的输入,即list[-1];而D使用[4,7,11,23],作为DPT_head的输入
image

2.2 自制分割输出头

在自制分割输出头前,我想先介绍以上采样技术。在视觉领域中,由于输入图像经过CNN提取特征后,得到的特征图尺寸往往会变小,又是需要恢复到图像原来的尺寸,便于进行进一步的计算,实现由小分辨率到大分辨率的操作称为上采样(Upsample).
上采样有三种常见的方法:插值法,转置卷积,反池化。转置卷积作为一种可学习的策略,应对需要学习的任务时比较出色。有关转置卷积的数学推导可以参照这里https://blog.csdn.net/weixin_42468475/article/details/121948821

  • Upsample
    上采样主要采用插值的方法,对于不同类型的多通道数据,Pytorch拥有不同的插值方法:
    对时序数据(1D),输入为三维张量,使用的插值方法时最近邻插值,对于空间数据(2D),输入为四维张量,使用的插值方法为双线性插值,对于体素数据(3D),输入张量为五维张量,使用的方法为bicubic and trilinear,下图是nn.Upsample的输入输出,image
    【注】:请关注下时序数据中通道的概念,例如温度预测(24小时)就是单变量时序数据,输入为(batch_size,1,24);又例如股票预测(1000)就是多变量时序数据,输入为(batch_size,3,100);犹如传感器信号处理(1000个采样点),输入为(batch_size,8,1000)

看到这里相信大家应该就能理解,明明是[B,S,C,H,W]五维数据却需要使用x=x.view(B*S,C,H,W)重塑一下了,因为其还是属于空间数据。

  • ConvTranspose2d:
    如下图所示,转置卷积本质上不支持输入3D时序张量,例如我项目这边的[B,S,num_tokens,tokens_emb],其实将B与S合并,就是3D张量,为了解决这个问题,我项目这边的张量重新增加一个维度,变为[B,S,1,num_tokens,token_emb]输入到转置卷积层中
    【注】发现我设计的token有点不太适合使用ConvTranspose2d,所以我让deepseek生成了一个,不得不说,深度思考的模型写代码的效果就是比简单生成式的模型要好,例如deepseek,其他Claude暂时还未尝试...

自制分割掩码

煮啵采用的是二值分割掩码,由于在测试阶段,想直接利用现成的大模型制作分割掩码,这样就可以不用研究数据集了,下面是煮啵制作数据集的过程
使用的是SAM模型,参考官方的常见问题中可以知道,SAM并不为图像生成标签,仅生成预测对象掩码
image

posted @ 2025-07-24 00:10  BingUw  阅读(11)  评论(0)    收藏  举报