摘要: 做Softmax不是唯一的选项,做ReLu之类的结果也不会比较差,但是Softmax是用的最多的 CNN是self-attention的特例,论文:On the Relationship between Self-Attention and Convolutional Layers CNN和self 阅读全文
posted @ 2021-06-27 21:44 zhangzeff 阅读(733) 评论(0) 推荐(0)