摘要: torch中的squeeze和unsqueezesqueeze是压缩,对维度进行降维。不写的话,默认将所有维度为1的去掉(我理解就是去掉对应层的"[]"中括号) 举例: unsqueeze是和squeeze相反的操作 阅读全文
posted @ 2023-07-04 19:39 Halo辉Go 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 什么是BatchNormalization? 1、先取平均值2、计算sigama 2.1、sigama计算方式是见图中公式 3、每一项减去平均值然后除以sigama 什么是Softmax? 什么是Attention和Transformer? 最近在重新学习和认识Attention和Transform 阅读全文
posted @ 2023-07-04 08:53 Halo辉Go 阅读(9) 评论(0) 推荐(0) 编辑