吴恩达机器学习笔记:如何debug一个学习算法?
- 当你把模型应用到一批新的数据时,预测结果出现很大的偏差,一般有如下几种处理方法:(以下每种方法都有可能花费几个月的时间,然而盲目采用以下方法,并不会产生很好的效果)
- 获取更多的训练样本
- 尝试去掉一些不好的特征
- 尝试获取额外的特征
- 尝试增加多项式特征
- 增加ℷ
- 减少ℷ
图1:调整学习算法的几种方法
- 区分高偏差和高误差问题与多项式维数问题:如图2所示
- 高偏差:欠拟合
- 特点:训练误差和测试误差都很大
- 举例:二次曲线可以拟合时候,非要采用直线拟合,会导致欠拟合问题
- 高误差:过拟合
- 特点:训练误差很小,测试误差很大
- 举例:4次曲线来拟合二次曲线问题,导致训练误差极小,然而过拟合,不易推广到新的样本上
- 高偏差:欠拟合
图2:高偏差与高误差:多项式特征图示
- 高偏差,高误差问题与正则化系数ℷ关系
- ℷ过小:
- 导致过拟合
- ℷ过大:
- 导致欠拟合
- ℷ过小:
图3:ℷ与高误差,高方差关系图示
- 训练样本数量与高误差,高偏差:
- 高误差时候,增加样本数量,会减少cv偏差
- 高偏差时候,增加样本数量,于事无补
图4:样本数量与偏差关系
- 调试方法总结:

浙公网安备 33010602011771号