2024年3月3日
摘要: 个人学习使用,侵权删 参考来源: 为什么Transformer要用LayerNorm 为什么Transformer模型使用layernorm而不是batchnorm transformer 为什么使用 layer normalization,而不是其他的归一化方法? 阅读全文
posted @ 2024-03-03 20:20 zhou-snaker 阅读(26) 评论(0) 推荐(0) 编辑