随笔 - 2 文章 - 0 评论 - 0 阅读 - 1670

<

2025年7月

>

日

一

二

三

四

五

六

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

随笔档案

2017年12月(2)

阅读排行榜

深度学习基础知识整理：激活函数

（1）ReLU及其扩展

　　ReLU (Rectified Linear Unit)，整流线性单元：

　　

　　ReLU由于和线性单元非常类似，因此比较容易优化：一是其一阶导大且一致，二是其二阶导数几乎处处为0。但是ReLU也有一些问题，它不能通过基于梯度的方法学习那些使它们激活为0的样例。具体来说，若经过激活函数后其值为0，该部分的导数也为0，会使得该神经元一直处于dead的状态。ReLU的各个扩展也是为了解决这个问题。

　　ReLU的三个扩展基于当z_i<0时使用一个非零的斜率。

　　- 绝对值整流 (absolute value rectification)：

　　

　　- 渗漏ReLU (Leaky ReLU):

　　

　　- 参数化ReLU (parametric ReLU):

　　将渗漏ReLU中的0.01视为变量在训练中不断学习。

　　-maxout：

　　maxout进一步扩展了ReLU。对于原本的激活函数，简单起见我们假设原本的网络的第i层如下所示：

　　

　　传统的输出计算公式是：

　　

　　f为激活函数，如sigmoid，ReLU，Tanh等。

　　对于maxout方法，若我们设置maxout的参数k=3，则该层的构造如下图所示：

　　

　　此时maxout网络的输出计算公式为：

　　

　　因此使用maxout作为激活层的时候，参数个数会成k倍增加。

　　maxout单元可以学习具有多大k段的分段线性的凸函数。maxout继承ReLU的优点并避免了ReLU的缺点。

　　因为每个单元由多个过滤器驱动，maxout具有一些冗余来帮助它们抵抗一种被成为灾难遗忘的现象，这个现象是说神经网络忘记了如何执行它们过去训练的任务。

（2） logistic sigmoid与正曲双切函数

　　早期神经网络使用的激活函数，在此就不做赘述了。渐渐不使用的主要原因就是其容易饱和导致梯度弥散。

　　

posted on 2017-12-12 11:13 Shiron 阅读(533) 评论(0) 收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！
【推荐】2025 HarmonyOS 鸿蒙创新赛正式启动，百万大奖等你挑战
【推荐】博客园的心动：当一群程序员决定开源共建一个真诚相亲平台
【推荐】开源 Linux 服务器运维管理面板 1Panel V2 版本正式发布
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 如何通过向量化技术比较两段文本是否相似?
· 35+程序员的转型之路：经济寒冬中的希望与策略
· JavaScript中如何遍历对象？
· 领域模型应用
· 记一次 ADL 导致的 C++ 代码编译错误

阅读排行：
· 35+程序员的转型之路：经济寒冬中的希望与策略
· 一款开源免费、通用的 WPF 主题控件包
· .NET 9 + React 开发的企业级后台权限管理系统，文档齐全，轻松上手
· 独立项目运营一周年经验分享
· 神解释：为什么程序员怕改需求？