随笔 - 2  文章 - 0 评论 - 0 阅读 - 1670
< 2025年7月 >
29 30 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 1 2
3 4 5 6 7 8 9

(1)ReLU及其扩展

  ReLU (Rectified Linear Unit),整流线性单元:

  

  ReLU由于和线性单元非常类似,因此比较容易优化:一是其一阶导大且一致,二是其二阶导数几乎处处为0。但是ReLU也有一些问题,它不能通过基于梯度的方法学习那些使它们激活为0的样例。具体来说,若经过激活函数后其值为0,该部分的导数也为0,会使得该神经元一直处于dead的状态。ReLU的各个扩展也是为了解决这个问题。

  ReLU的三个扩展基于当zi<0时使用一个非零的斜率。

  - 绝对值整流 (absolute value rectification):

  

  - 渗漏ReLU (Leaky ReLU):

  

  - 参数化ReLU (parametric ReLU):

  将渗漏ReLU中的0.01视为变量在训练中不断学习。

 

   -maxout:

  maxout进一步扩展了ReLU。对于原本的激活函数,简单起见我们假设原本的网络的第i层如下所示:

   

  传统的输出计算公式是:

  

  f为激活函数,如sigmoid,ReLU,Tanh等。

  对于maxout方法,若我们设置maxout的参数k=3,则该层的构造如下图所示:

  

  此时maxout网络的输出计算公式为:

  

  因此使用maxout作为激活层的时候,参数个数会成k倍增加。

  maxout单元可以学习具有多大k段的分段线性的凸函数。maxout继承ReLU的优点并避免了ReLU的缺点。

  因为每个单元由多个过滤器驱动,maxout具有一些冗余来帮助它们抵抗一种被成为灾难遗忘的现象,这个现象是说神经网络忘记了如何执行它们过去训练的任务。 


(2) logistic sigmoid与正曲双切函数

   早期神经网络使用的激活函数,在此就不做赘述了。渐渐不使用的主要原因就是其容易饱和导致梯度弥散。

  

posted on 2017-12-12 11:13  Shiron  阅读(533)  评论(0)    收藏  举报
编辑推荐:
· 如何通过向量化技术比较两段文本是否相似?
· 35+程序员的转型之路:经济寒冬中的希望与策略
· JavaScript中如何遍历对象?
· 领域模型应用
· 记一次 ADL 导致的 C++ 代码编译错误
阅读排行:
· 35+程序员的转型之路:经济寒冬中的希望与策略
· 一款开源免费、通用的 WPF 主题控件包
· .NET 9 + React 开发的企业级后台权限管理系统,文档齐全,轻松上手
· 独立项目运营一周年经验分享
· 神解释:为什么程序员怕改需求?
点击右上角即可分享
微信分享提示