因为每次都要重复花好多时间去查,对于一些经常会遇到的就记录在此,不保证准确,仅自己使用,秉持分享精神
1.batch_size的设定非常影响训练结果,无论是train还是val,尤其是val的时候,一个batch如果能把所有数据装入其中,点会非常的高
2.对于模型训练GPU跑不满的情况,除了Dataloader中添加pin_memory,还需要严查code中涉及到io的部分,保存模型和log.csv也会耗费大量时间
3.对于复杂度不同的模型,数据集大小不同的模型,attention模块的选择和相关参数的校准需要认真考虑。
4.对于大卷积核与小卷积核,多次连续小卷积等于一次大卷积,且有优势,参考https://www.cnblogs.com/mfryf/p/11381300.html#ct1
7.对于attention和model多一层的不同,深度学习不同层的意义在于收集不同尺度下图片的特征信息,而attention块的意义是,从当前层学习一个特征矩阵,然后乘上去,强化“该尺度下的”信息特征。
8.对于分离xy轴,直接沿着xy用nn.AdaptiveAvgPool2d,调整池化核,参考CAmodule。
posted @
2024-02-24 22:03
Sanicee
阅读(
2)
评论()
编辑
收藏
举报