过拟合与梯度消失

过拟合

现象:

在训练集上表现效果非常好,但是在验证集上效果下降。在训练集上的误差越来越小并趋于稳定,在验证集上的误差先减小后增大。

原因:

精确学习到了训练集上的特征,但是实际数据与训练集数据存在差距。

解决方法:

1.添加L1/L2正则化:引入模型的复杂度,模型越复杂,则正则化项越大,误差也将会增大。通过引入正则化项平衡训练误差。

2.早停:在验证集误差拐点处停止训练

3.dropout:使用神经网络训练时,随机让一些神经元失活,相当于增加了不同的模型。

4.决策树剪枝:使用决策树建模时,引入剪枝,

5.SVM的松弛变量

6.集成学习:使用多个模型进行集成学习,使得结果不受单个模型的影响

梯度消失

现象:

随着训练次数的增多,模型无法收敛

原因:

使用的激活函数不恰当,随着网络层数的增多,在反向传播过程中,离输入数据较近的网络层其参数的更新会受到多个激活函数导数的连乘,从而导致更新后的参数与原来参数相差无几。

解决方法:

1.使用relu替换sigmoid/tanh激活函数

2.使用残差连接

3.使用BatchNormalization

4.使用LSTM等门控网络

posted @ 2021-11-04 14:25  ljj18  阅读(113)  评论(0编辑  收藏  举报