机器学习中的Bias、Variance

机器学习中的误差Error可以理解为偏差和方差的和。

Error(误差) = Bias(偏差) + Variance(方差)

Bias

偏差指的是样本输出与真实值之间的差距,即模型本身的拟合程度。

代表了模型本身的精确度

Variance

方差指的是模型每一次输出结果与真实值之间的差距,即模型的泛化能力。

代表了模型的稳定性。

欠拟合对应了高偏差、过拟合对应了高方差。

Bagging

对于Bagging来说,最终预测结果由很多基学习器投票或者取平均产生,可以保证低方差(variance)。

因此对于每个基学习器来说,不用过多的关注方差、降低方差,把目标放在降低偏差(bias)

所以RF中的每棵树都尽最大程度的生长,并且没有剪枝过程。

Boosting

对于Boosting来说,最终结果由很多基学习器加权做和产生,在每一轮的基础上更加拟合数据,可以保证低偏差(bias)。

因此对每个基学习来说,不用过多的关注偏差,把目标放在降低方差(variance)上。

所以基学习器越简单越好,在GBDT中,限制了每棵树的深度以及叶子节点的个数。

posted @ 2018-03-01 14:35  Allegro  阅读(414)  评论(0编辑  收藏  举报