ReLU激活函数只能在隐藏层中使用。 Sigmoid/Logistic和Tanh函数不应该用于隐藏层,因为它们会在训练过程中引起问题。 Swish函数用于深度大于40层的神经网络会好很多。 输出层的激活函数是由你要解决的预测问题的类型决定的。以下是一些需要记住的基本原则: 回归-线性激活函数 二元分类- Sigmoid 多类分类- Softmax 多标签分类- Sigmoid
另外注意LSTM再使用ReLU函数的时候不能获得GPU的加速,这样训练的很慢