• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
sanicee
博客园    首页    新随笔    联系   管理    订阅  订阅

深度学习小细节笔记(长期更新)

因为每次都要重复花好多时间去查,对于一些经常会遇到的就记录在此,不保证准确,仅自己使用,秉持分享精神

1.batch_size的设定非常影响训练结果,无论是train还是val,尤其是val的时候,一个batch如果能把所有数据装入其中,点会非常的高

2.对于模型训练GPU跑不满的情况,除了Dataloader中添加pin_memory,还需要严查code中涉及到io的部分,保存模型和log.csv也会耗费大量时间

3.对于复杂度不同的模型,数据集大小不同的模型,attention模块的选择和相关参数的校准需要认真考虑。

4.对于大卷积核与小卷积核,多次连续小卷积等于一次大卷积,且有优势,参考https://www.cnblogs.com/mfryf/p/11381300.html#ct1

5.avg & max的并行池化的效果要更好。也有可能是池化丢失的信息太多,avg&max的并行连接方式比单一的池化丢失的信息更少,所以效果会更好一点。参考:https://blog.csdn.net/m0_45447650/article/details/123983483

6.池化操作会导致CNN网络模型平移不变性的损失。参考:https://blog.csdn.net/wind82465/article/details/117552249

7.对于attention和model多一层的不同,深度学习不同层的意义在于收集不同尺度下图片的特征信息,而attention块的意义是,从当前层学习一个特征矩阵,然后乘上去,强化“该尺度下的”信息特征。

8.对于分离xy轴,直接沿着xy用nn.AdaptiveAvgPool2d,调整池化核,参考CAmodule。

posted @ 2024-02-24 22:03  Sanicee  阅读(27)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3