机器学习中的过拟合及解决方法
模型的误差是偏差和方差相加而成的。
偏差(又称训练误差,经验误差)反映了模型在训练集样本上的期望输出与真实结果之间的差距,即模型本身的精确度,反映的是模型本身的拟合能力。偏差过高反映了模型存在欠拟合现象,表明模型过于简单,没有很好的拟合训练集变量之间的特征,需要进一步提升模型的复杂度。
方差(又称泛化误差)反映了模型在不同的训练集下得到的结果与真实结果之间误差的波动情况,即模型的稳定性。由于训练集中会存在噪声,并且该噪声不具有通用性,不同的训练集中会有不同的噪声,当模型过于复杂时,也会大量学习训练集中的噪声,最终导致模型的泛华能力变差,这就是过拟合产生的原因。
解决过拟合的两条主线:一是增大数据集,二是降低模型的复杂度(根据VC维理论可知)。一般来说扩展数据集是比较难的,而且数据集大,模型复杂度高的时候即使能获得好的泛化结果,也会增大计算量。所以常见的方式都是以降低模型的复杂度为主,接下来看看有哪些常见的方法可以自适应地降低模型的复杂度。
减低模型复杂度的方法见https://www.cnblogs.com/jiangxinyang/p/9281107.html
参考文献:
[1]徐麟.数据分析师求职面试指南.中国工信出版集团
万般皆下品 惟有读书高
浙公网安备 33010602011771号