深度学习小细节笔记（长期更新）

因为每次都要重复花好多时间去查，对于一些经常会遇到的就记录在此，不保证准确，仅自己使用，秉持分享精神

1.batch_size的设定非常影响训练结果，无论是train还是val，尤其是val的时候，一个batch如果能把所有数据装入其中，点会非常的高

2.对于模型训练GPU跑不满的情况，除了Dataloader中添加pin_memory，还需要严查code中涉及到io的部分，保存模型和log.csv也会耗费大量时间

3.对于复杂度不同的模型，数据集大小不同的模型，attention模块的选择和相关参数的校准需要认真考虑。

4.对于大卷积核与小卷积核，多次连续小卷积等于一次大卷积，且有优势，参考https://www.cnblogs.com/mfryf/p/11381300.html#ct1

5.avg & max的并行池化的效果要更好。也有可能是池化丢失的信息太多，avg&max的并行连接方式比单一的池化丢失的信息更少，所以效果会更好一点。参考：https://blog.csdn.net/m0_45447650/article/details/123983483

6.池化操作会导致CNN网络模型平移不变性的损失。参考：https://blog.csdn.net/wind82465/article/details/117552249

7.对于attention和model多一层的不同，深度学习不同层的意义在于收集不同尺度下图片的特征信息，而attention块的意义是，从当前层学习一个特征矩阵，然后乘上去，强化“该尺度下的”信息特征。

8.对于分离xy轴，直接沿着xy用nn.AdaptiveAvgPool2d，调整池化核，参考CAmodule。

posted @ 2024-02-24 22:03 Sanicee 阅读(31) 评论(0) 收藏举报

刷新页面返回顶部