Where does the error come from?

Where does the error come from?

来源

  • from bias——分布的位置
  • from variance——分布的密集程度

简单的model收到样本数据的影响较小

结论

  • \(f^*\)的variance取决于model的复杂程度和data的数量
  • \(f^*\)的bias只取决于model的复杂程度

表现

  • overfitting: error主要来自于variance很大
  • underfitting: error主要来自于bias很大

判断当前误差来自bias还是variance

  • 若model不能拟合training data和examples,则bias较大,表现为underfitting
  • 若model可以拟合training data,在training data上有较小的error,但在testing data上的error很大,则variance较大,表现为overfitting

处理

  1. 若bias较大——redesign your model
    1. 增加更多的features作为model的input
    2. 让model变得更复杂,增加高次项
  2. 若variance较大
    1. 增加data——现实中难以收集更多的data(可以人为制造更多的data
    2. 正则化regularization——强迫曲线变得平滑,但可能伤害bias

选择model

  1. training data分成两组:training set和validation set
    1. training set(训练集)用来训练model
    2. validation set(验证集)用来选择model
  2. 先在training set上找出每个model最好的function\(f^*\),然后用validation set来选择你的model
  3. 这样选择的model在public set上的error才能真正反映model在private set上的error
posted @ 2021-03-08 11:06  平平无奇的打工人  阅读(63)  评论(0)    收藏  举报