Deep Learning 论文笔记 (1): Making dropout invariant to transformations of activation functions and inputs

这是2014年nips workshop的一篇paper。这个paper号称他们提出了invariant dropout,可以对inputs和activation units的additive shift transform(我理解的其实就是加additive noise)具有不变性。

 

通常如果在每一个input unit和activation unit加了additive noise的话,下一层的activation  unit的input(也就是只进行了线性组合还没经过非线性)的variance会增大或者减小。在这种情况下普通的dropout会随着加的additive noise不同而得到不同的结果,也就是作者所谓的variant to additive shift. 如下面五个式子所示:

 

a_i是原始的节点:

a_i + phi 是additive shift transform之后的节点:

 

以上两种情况对应的variance:

两种情况的variance之差:

从这个差可以看出来,可正可负,表明additive shift transform之后的variance可能增大也可能减小。

 

 

作者的解决方法是对每一个input或者activate节点引入一个新的变量,叫做invariance parameter, beta_j。

 

这个新的参数beta_j是learn出来的。其实就相当于在每一个节点上增加了一个offset,和additive noise很像,但是additive noise的是在已知参数的分布中抽样出来的,但是这里面的beta是学习出来的。所以当每一个节点经过不同的additive shift transform,由于有可以learned adaptive beta这样一个additive shift,会使最后的结果比较stable,因此作者声称他们的方法是additive shift transform invariant的。

 

本文的中心思想其实就是对每一个节点引入一个learned adaptive shift (beta)去抵消掉人为的故意对每一个节点加的pre-defined additive shift (so called additive shift transform)。所谓的invariant dropout也只是LAS + dropout 针对 No-LAS + dropout (LAS指learned adaptive shift) 而言的,我觉得如果去掉dropout,单纯比较LAS和No-LAS也会有相似的结论,前者也还是additive shift transform invariant的。

 

最后实验主要跑了MNIST,CIFAR-10,Street View House Numbers (SVHN)几个数据集,invariant dropout的结果比regular dropout的结果要好一点。

posted on 2015-03-10 15:32  蓝色泡泡兔  阅读(480)  评论(0编辑  收藏  举报