激活函数在深度学习模型中至关重要,它赋予模型非线性能力,使神经网络能学习复杂的模式和映射关系。随着研究发展,不断有新的激活函数被提出,部分在某些方面超越了 GELU,且已被一些模型采用。
- B-SiLU(结合 SUGAR 方法):通过 ReLU 的替代梯度学习(SUGAR)方法引入,在正向传播时保留标准 ReLU 函数,反向传播用 B-SiLU 的梯度。在 VGG-16 和 ResNet-18 等卷积网络架构中应用,在 CIFAR-10 和 CIFAR-100 数据集上,VGG-16 的测试准确率分别提高 10 和 16 个百分点,ResNet-18 也有相应提升,展现出良好的性能。
- TeLU(双曲正切指数线性单元):定义为\(TeLU(x)= x\cdot tanh(e^{x})\),设计基于关键激活函数原则,在活跃区域逼近恒等函数实现强收敛,有效缓解饱和区域梯度消失问题。公式简单,计算效率高,结合了 ReLU 的简单性和有效性以及深度神经网络学习稳定性所需的平滑性和解析性。在 ImageNet 上的 ResNet18、Text8 上的动态池化 Transformer 以及 Penn TreeBank 数据集上的循环神经网络(RNN)等任务中表现出色。
- DiTAC(基于微分同胚变换的激活函数):基于有效微分同胚变换(CPAB)的可训练高表达能力激活函数,仅引入极少量可训练参数,却能增强模型表达能力和性能。在语义分割、图像生成、回归问题和图像分类等多种任务中优于现有的激活函数,适用于不同的模型架构 。