摘要: ReLU(Rectified Linear Unit) 表达式:\(ReLU(x)=max(0,x)\) 在最早期的一些神经网络和小型NLP模型中,ReLU是出现频次最高的激活函数,但是在Transformer出现后,ReLU的一些问题也随之被放大,在\(x<0\)时,ReLU将梯度完全截断,在大规 阅读全文
posted @ 2025-09-11 22:46 Luna-Evelyn 阅读(60) 评论(0) 推荐(0)