摘要: 昨天写的因为没有及时发布,又丢失了,现在重写一遍重点。 1. activation functions 1) 总结:一般都用ReLu,因为在x>0时,不会出现梯度消失 可以尝试Leakly ReLu ELU Maxout(参数加倍) tanh(0-centered) 不要用Sigmoid 2)Sig 阅读全文
posted @ 2020-05-23 15:18 ChevisZhang 阅读(434) 评论(0) 推荐(0)