Where does the error come from?
Where does the error come from?
来源
- from
bias——分布的位置 - from
variance——分布的密集程度
简单的model收到样本数据的影响较小
结论
- \(f^*\)的variance取决于model的复杂程度和data的数量
- \(f^*\)的bias只取决于model的复杂程度
表现
- overfitting: error主要来自于variance很大
- underfitting: error主要来自于bias很大
判断当前误差来自bias还是variance
- 若model不能拟合training data和examples,则bias较大,表现为underfitting
- 若model可以拟合training data,在training data上有较小的error,但在testing data上的error很大,则variance较大,表现为overfitting
处理
- 若bias较大——redesign your model
- 增加更多的features作为model的input
- 让model变得更复杂,增加高次项
- 若variance较大
- 增加data——现实中难以收集更多的data(可以人为制造更多的data
- 正则化regularization——强迫曲线变得平滑,但可能伤害bias
选择model
- training data分成两组:training set和validation set
- training set(训练集)用来训练model
- validation set(验证集)用来选择model
先在training set上找出每个model最好的function\(f^*\),然后用validation set来选择你的model- 这样选择的model在public set上的error才能真正反映model在private set上的error

浙公网安备 33010602011771号