过拟合与欠拟合
一、过拟合(over-fitting)
在训练集(training data)上误差(error)逐渐降低,而在测试集(testing data)上误差逐渐增大。
在机器学习算法中,我们经常将原始数据集分为三个部分:
- 训练集(training data)
- 验证集(volidation data)
- 测试集(testing data)
防止过拟合的方法主要有:
- 正则化(regularization)
- 数据增强(data augmentation)
- drop out
- early stopping
- 等等。。。
二、正则化
通过改动代价函数进行改变
- L1 regularization
Lasso
- L2 regularization(即权重衰减 weight decay)
Ridge
三、数据增强
即增加训练集样本
- 收集海量原始数据:成本过高
- 在原始数据上做变动,得到更多数据
四、drop out
通过改变神经网络本身来实现
五、early stopping
即在迭代收敛之前停止迭代来防止过拟合
六、数据预处理
- 降维:PCA,t-SNE(可视化)
- 平衡不同数据权重
- 等等。。。
参考:.《Neural networks and deep learning》

浙公网安备 33010602011771号