【吴恩达机器学习】第11章应用机器学习的建议

应用机器学习的建议

如何改进算法

以上方法可能并不是一些很有效的方法

如何评价和诊断一个机器学习系统，可以极大地提高改进算法的效率。

评估假设

如何防止过拟合与欠拟合的问题

将数据分割为训练集与测试集，统计测试集的预测错误以此对假设进行评估

如何确定模型中参数 $\theta$ 以及 $KaTeX parse error: Undefined control sequence: \d at position 1: \̲d̲$ (表示特征的最大维数)
在这里插入图片描述

将以上10个模型的 $\theta$ 在测试集上进行评估，选择最好的哪个模型即确定模型的参数 $d$ ，但方式中模型的参数 $d$ 是由测试集选择出来的，不能依然用该测试集评估该模型的泛化能力。

解决方式：将数据由2类分为3类，即训练集、验证集（交叉验证集）与测试集，比例为0.6 ：0.2 : 0.2.

当需要选择模型时，使用验证集来对模型选择，测试集用于评价模型的泛化能力。

弄清楚是过拟合问题还是欠拟合问题，还是与两个都存在关系，这一点很重要。

两种错误：

欠拟合与过拟合

训练误差/交叉验证误差与正则化系数 $\gamma$ 的关系。
在这里插入图片描述

测试样本大小与测试误差/交叉验证误差

哪些改进方式是有效的，而哪些是效率低下的。

改进方式：

Neural networks and overfitting
通过交叉验证集选择variance更低的神经网络模型。

posted @ 2019-09-29 09:59 bitbitbyte 阅读(123) 评论(0) 收藏举报

刷新页面返回顶部