摘要: 利用一些饱和激活函数的如sigmoid激活时,假如利用均方误差损失,那么损失函数向最后一层的权重传递梯度时,梯度公式为 可见梯度与最后一层的激活函数的导数成正比,因此,如果起始输出值比较大,也即激活函数的导数比较小,那么整个梯度幅度更新幅度都比较小,收敛时间很长。若一开始输出值比较小那么更新速度比较 阅读全文
posted @ 2019-05-28 19:20 Parallax 阅读(1286) 评论(0) 推荐(0)
摘要: 要看MobileNet先看Xception。Xception是inception V3的改进,具体是引入了深度可分卷积结构 将传统的卷积操作分成两步,假设原来是3*3的卷积,那么depthwise separable convolution就是先用M个3*3卷积核一对一卷积输入的M个feature 阅读全文
posted @ 2019-05-28 16:33 Parallax 阅读(390) 评论(0) 推荐(0)