机器学习（七）--------机器学习算法选择

获得更多的训练实例——通常是有效的，但代价较大，下面的方法也可能有效，可考虑
先采用下面的几种方法。
1.尝试减少特征的数量
2.尝试获得更多的特征
3.尝试增加多项式特征
4.尝试减少正则化程度𝜇

我们需要使用交叉
验证集来帮助选择模型。
即：使用 60%的数据作为训练集，使用 20%的数据作为交叉验证集，使用 20%的数据
作为测试集

模型选择的方法为：

使用训练集训练出 10 个模型
用 10 个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）
选取代价函数值最小的模型
用步骤 3 中选出的模型对测试集计算得出推广误差（代价函数的值）

当你运行一个学习算法时，如果这个算法的表现不理想，那么多半是出现两种情况：
要么是偏差比较大，要么是方差比较大。换句话说，出现的情况要么是欠拟合，要么是过拟
合问题。

训练集误差和交叉验证集误差近似时：偏差/欠拟合
交叉验证集误差远大于训练集误差时：方差/过拟合

获得更多的训练实例——解决高方差
尝试减少特征的数量——解决高方差
尝试获得更多的特征——解决高偏差
尝试增加多项式特征——解决高偏差
尝试减少正则化程度 λ——解决高偏差
尝试增加正则化程度 λ——解决高方差

大数据流动专注于大数据实时计算，数据治理，数据可视化等技术分享与实践。
请在后台回复关键字下载相关资料。相关学习交流群已经成立，欢迎加入~

posted @ 2019-06-04 09:57 独孤风阅读(204) 评论(0) 收藏举报

刷新页面返回顶部