过拟合与欠拟合

 

一、过拟合(over-fitting)

在训练集(training data)上误差(error)逐渐降低,而在测试集(testing data)上误差逐渐增大。

在机器学习算法中,我们经常将原始数据集分为三个部分:

  • 训练集(training data)
  • 验证集(volidation data)
  • 测试集(testing data)

防止过拟合的方法主要有:

  • 正则化(regularization)
  • 数据增强(data augmentation)
  • drop out
  • early stopping
  • 等等。。。

二、正则化

通过改动代价函数进行改变

  • L1 regularization

Lasso

  • L2 regularization(即权重衰减 weight decay)

Ridge

三、数据增强

即增加训练集样本

  • 收集海量原始数据:成本过高
  • 在原始数据上做变动,得到更多数据

四、drop out 

通过改变神经网络本身来实现

五、early stopping

即在迭代收敛之前停止迭代来防止过拟合

六、数据预处理

  • 降维:PCA,t-SNE(可视化)
  • 平衡不同数据权重
  • 等等。。。

参考:.《Neural networks and deep learning》

 

posted @ 2019-04-06 14:52  ZHsia  阅读(208)  评论(0)    收藏  举报