不同loss函数在不同网络结构下的误差后传

前言

　　推导下最小均方差（MSE）和交叉熵（CE）两种loss函数的导数，看看还是否满足误差后传的原则？有什么区别？
　　在一般地网络结构下是怎么样的？在CNN下又是怎么推导的？在RNN结构下（LSTM）又是怎么推导的？直接讨论多元判别的情况，二元读者自行推导。

MSE & CE

　　上个小图，说明下最后输出结构及两种loss的形式。

　　MSE的思路：是不管哪个输出维度，都想尽量靠近。
　　CE的思路：只将样本集出现的概率最大化。交叉熵与最大似然是一致的，在前面讲过，这里不多说了。
　　 $L o s s (d a t a | z) = \frac{1}{2 m} \sum_{s = 1}^{m} \sum_{j = 1}^{k} [y_{j} - f (z_{j})]^{2}$

输出层的判别函数

　　二元判别时，更习惯用 $s i g m o i d$

单样本下求导

　　1）对MSE下的单样本时输入 $z_{i}$

在一般网络结构下，不同Loss对误差后传有什么影响么？

　　上个小图表示倒数的后几层。

　　对误差后传是没有影响的，只是最后一层往前传递的内容有点变化而已。
　　１） CE损失函数下的倒数
　　对CE表示损失函数的网络倒数第一层参数 $w_{j, i}^{L}$

卷积层和池化层导数

　　1）卷积层、卷积导数、误差后传
　　卷积的操作： $z_{i, j} = \sum_{a = 0}^{m - 1} \sum_{b = 0}^{n - 1} \sum_{c = 0}^{3} x_{i + a, j + b, c} w_{a, b, c} + b$

\partial z i , j \partial w m ' , n ' = \sum c = 0 3 x i + m ' , j + n

　　如何误差后传呢？由于卷积层的参数

w

在CNN网络结构下，不同Loss对误差后传有什么不同？

　　上面的推导也已经看到了，卷积和池化层，仍然遵循误差后传的规律。不同loss对误差后传无影响，唯一的影响是最后层后传的内容不同（由于softmax判别函数的特殊性刚好与loss互相抵消掉部分内容）；更新最后层参数的稍微不同（由于loss函数本身的不同导致）。
　　MSE后传的是 $\frac{\partial E}{\partial f} \frac{\partial f}{\partial z_{i}} = (y_{i} - f_{i}) f_{i}^{'}$

RNN 结构下的BP

　　未完待续….
　　RNN的结构不同于传统的网络，也不同于CNN的网络，而是以迭代的形式出现。传统网络，层内不共享参数，层间不共享参数；CNN是层内共享参数，层间不共享参数；RNN是层内不共享参数，层间共享参数。
　　并且输入数据样本和输出表示上也不同于一般的情况，是连续的时间序列数据。表示也不是one-hot形式，而是以对应位置概率预测形式出现。比如，输入[我很开心]==> 输出[(0.8, 0.1, 0.1), (0.1, 0.9, 0.0), (0.2, 0.2, 0.6)]。

梯度优化方法应用位置

　　疑问：各种对参数更新的方法做的改进，比如，Adam怎么应用过来呢？
　　错误的回答：目测应该是最后一层的导数求解后的改进，如果对每个激活的导数都改动，那是不是有点过分了，不能表示真实输出和预测输出的区别。梯度的改进是为了能够更真实地描述与最优解的距离，且能够在更新参数时更快更直接朝着最优解方向。
　　正确的回答：梯度优化的方法，是对 $f (θ)$

batch normalize 怎么加进去

　　1）batch normalize在一般网络中，如何加入？
　　这个前面博客“Batch Norm的几点说明”都推导过，是对激活函数的修改，对整个误差后传结构无影响。
　　2）batch normalize在CNN网络中，如何加入？
　　这个也提到过，在前面博客里，至于怎么推导。只需将上面的激活函数对应的替换下就OK。

卷积计算与cross-relation计算等价

　　学过通信的童鞋，肯定都会对CNN里面的卷积操作持怀疑态度，这分明不是卷积嘛，骗我没学过信号与处理理论么。里面的计算转换下，就会发现相通的地方。

总结

　　1. 虽然是不同的loss函数下，只要网络结构仍然是层间直连，对误差传递的多点往前集中的形式是无影响的。
　　2. 对某层参数求导时，敏感值的计算，每层的输出侧都是需要累加到一起的，再对该层的参数求导。
　　3. 交叉熵和均方差的loss函数，在最后层参数更新上是不一样的，前者只对样本类别标记下对应的参数更新，后者则是所有参数本次迭代都有更新。
　　4. 池化层由于无学习的动作，只是选择，所以处理更为简单。

posted @ 2018-07-02 19:53 菜鸡一枚阅读(712) 评论(0) 收藏举报

刷新页面返回顶部

菜鸡一枚

不同loss函数在不同网络结构下的误差后传

不同loss函数在不同网络结构下的误差后传

前言

MSE & CE

输出层的判别函数

单样本下求导

在一般网络结构下，不同Loss对误差后传有什么影响么？

卷积层和池化层导数

在CNN网络结构下，不同Loss对误差后传有什么不同？

RNN 结构下的BP

梯度优化方法应用位置

batch normalize 怎么加进去

卷积计算与cross-relation计算等价

总结

公告