摘要: 文章基于的假设固定输入层输入的分布可以加快训练,防止出现梯度衰减。 收获: 1.如果有疑问可以做简单的实验。 2.BN层只是从一定程度上解决了梯度衰减的问题但是并没有完全解决如果输入值的差距过大会导致模型加BN层后loss依旧无变化。看代码1: 3.BN层在train和eval模型对相同的数据输出值 阅读全文
posted @ 2022-11-06 16:53 祥瑞哈哈哈 阅读(34) 评论(0) 推荐(0)