误差
模型的误差来源有两个,分别是误差(bias)和方差(variance)。

不同复杂程度的模型倾向于不同的误差类型,复杂度较低的模型的方差较小,也就更集中,但是偏差较大,易欠拟合;复杂模型离散程度更大,但偏差小,易过拟合。


我们要做的,就是在两种误差中权衡,找出相对平衡的模型。
误差改进
- 偏差大的模型可能是模型复杂程度不够,要考虑更多变量,增加更多次幂。偏差大的情况下盲目添加更多数据是没用的,因为模型本身表现就不好。
- 方差大的模型,最简单的改进方法是增加更多训练数据,但很多情况我们拿不到更多的数据,但是可以通过一些技巧修改已有数据来丰富数据(比如对于图像数据可以偏转图像角度)。
模型选择
模型不可简单根据测试成绩挑选,因为已有的测试集代表不了真实情况或者完整测试集。

- 交叉验证
在训练集中划出一部分作为验证集,通过验证集选出模型后再将验证集放回全部训练集重新训练被选中的模型,然后再在公开测试集上测试。
![]()
- n折交叉验证
将训练集分为三部分,三部分数据分别作一次验证集,取平均验证成绩最好的模型。最后用全部验证集训练该模型。
![]()


浙公网安备 33010602011771号