2025.7.22学习日记【没写多少，不过为了日期的完整性，还是发一下】

1.EDGE浏览器快捷操作

介绍一点有关EDGE浏览器的快捷操作内容，希望对于大家的科研或者生活有所帮助

1.1 单页面操作

1.1.1 查找与逐项查找

在EDGE浏览器中可以使用CTRL+F开启查找功能，开启完CTRL+F查找功能后，还可使用Enter与/Shift+Enter进行逐项查找，
【注】EDGE还可以通过使用CTRL+G进行逐行查找，但详细米娜桑肯定有用VSCODE的习惯，还是推荐使用Enter进行逐行查找

1.1.2 页面元素操作

浏览框操作使用CTRL+E，URL操作使用ALT+D

1.2 多页面操作

2.VGGT

2.1 聚合器处理细节

关注VGGT聚合器中的代码可以发现，在代码中出现了如下的处理。简单来说处理block_num(24)次，每次将处理完毕的结果放到列表中，使用最后一次的结果，作为预测部件camera_head的输入，即list[-1];而D使用[4，7，11，23],作为DPT_head的输入

2.2 自制分割输出头

在自制分割输出头前，我想先介绍以上采样技术。在视觉领域中，由于输入图像经过CNN提取特征后，得到的特征图尺寸往往会变小，又是需要恢复到图像原来的尺寸，便于进行进一步的计算，实现由小分辨率到大分辨率的操作称为上采样(Upsample).
上采样有三种常见的方法：插值法，转置卷积，反池化。转置卷积作为一种可学习的策略，应对需要学习的任务时比较出色。有关转置卷积的数学推导可以参照这里https://blog.csdn.net/weixin_42468475/article/details/121948821

Upsample：
上采样主要采用插值的方法，对于不同类型的多通道数据，Pytorch拥有不同的插值方法：
对时序数据(1D)，输入为三维张量，使用的插值方法时最近邻插值，对于空间数据(2D)，输入为四维张量，使用的插值方法为双线性插值，对于体素数据(3D),输入张量为五维张量，使用的方法为bicubic and trilinear，下图是nn.Upsample的输入输出，
【注】：请关注下时序数据中通道的概念，例如温度预测(24小时)就是单变量时序数据，输入为(batch_size,1,24);又例如股票预测(1000)就是多变量时序数据，输入为(batch_size,3,100);犹如传感器信号处理(1000个采样点)，输入为(batch_size,8,1000)

看到这里相信大家应该就能理解，明明是[B,S,C,H,W]五维数据却需要使用x=x.view(B*S,C,H,W)重塑一下了，因为其还是属于空间数据。

ConvTranspose2d：
如下图所示，转置卷积本质上不支持输入3D时序张量，例如我项目这边的[B,S,num_tokens,tokens_emb],其实将B与S合并，就是3D张量，为了解决这个问题，我项目这边的张量重新增加一个维度，变为[B,S,1,num_tokens,token_emb]输入到转置卷积层中
【注】发现我设计的token有点不太适合使用ConvTranspose2d，所以我让deepseek生成了一个，不得不说，深度思考的模型写代码的效果就是比简单生成式的模型要好，例如deepseek，其他Claude暂时还未尝试...

自制分割掩码

煮啵采用的是二值分割掩码，由于在测试阶段，想直接利用现成的大模型制作分割掩码，这样就可以不用研究数据集了，下面是煮啵制作数据集的过程
使用的是SAM模型，参考官方的常见问题中可以知道，SAM并不为图像生成标签，仅生成预测对象掩码

posted @ 2025-07-24 00:10 BingUw 阅读(11) 评论(0) 收藏举报

刷新页面返回顶部

BingUw