Deep Learning 论文笔记 (1): Making dropout invariant to transformations of activation functions and inputs

这是2014年nips workshop的一篇paper。这个paper号称他们提出了invariant dropout，可以对inputs和activation units的additive shift transform（我理解的其实就是加additive noise）具有不变性。

通常如果在每一个input unit和activation unit加了additive noise的话，下一层的activation unit的input（也就是只进行了线性组合还没经过非线性）的variance会增大或者减小。在这种情况下普通的dropout会随着加的additive noise不同而得到不同的结果，也就是作者所谓的variant to additive shift. 如下面五个式子所示：

a_i是原始的节点：

a_i + phi 是additive shift transform之后的节点：

以上两种情况对应的variance：

两种情况的variance之差：

从这个差可以看出来，可正可负，表明additive shift transform之后的variance可能增大也可能减小。

作者的解决方法是对每一个input或者activate节点引入一个新的变量，叫做invariance parameter， beta_j。

这个新的参数beta_j是learn出来的。其实就相当于在每一个节点上增加了一个offset，和additive noise很像，但是additive noise的是在已知参数的分布中抽样出来的，但是这里面的beta是学习出来的。所以当每一个节点经过不同的additive shift transform，由于有可以learned adaptive beta这样一个additive shift，会使最后的结果比较stable，因此作者声称他们的方法是additive shift transform invariant的。

本文的中心思想其实就是对每一个节点引入一个learned adaptive shift (beta)去抵消掉人为的故意对每一个节点加的pre-defined additive shift (so called additive shift transform)。所谓的invariant dropout也只是LAS + dropout 针对 No-LAS + dropout (LAS指learned adaptive shift) 而言的，我觉得如果去掉dropout，单纯比较LAS和No-LAS也会有相似的结论，前者也还是additive shift transform invariant的。

最后实验主要跑了MNIST，CIFAR-10，Street View House Numbers (SVHN)几个数据集，invariant dropout的结果比regular dropout的结果要好一点。

posted on 2015-03-10 15:32 蓝色泡泡兔阅读(490) 评论(0) 收藏举报