摘要: BN本质上解决的是反向传播过程中的梯度问题。 详细点说,反向传播时经过该层的梯度是要乘以该层的参数的,即前向有: 那么反向传播时便有: 那么考虑从l层传到k层的情况,有: 上面这个 便是问题所在。因为网络层很深,如果 大多小于1,那么传到这里的时候梯度会变得很小比如 ;而如果 又大多大于1,那么传到 阅读全文
posted @ 2018-11-02 11:07 青牛梦旅行 阅读(1248) 评论(0) 推荐(1)