机器学习中的训练集、验证集、测试集

训练集 (Training set)

　　用来训练分类器中的参数，拟合模型。会使用超参数的不同取值，拟合出多个分类器，后续再结合验证集调整模型的超参数。

验证集 (Validation set)

　　当通过训练集训练出多个模型后，为了能找出效果最佳的模型，使用各个模型对验证集数据进行预测，并记录模型准确率。选出效果最佳的模型所对应的超参数，即用来调整模型超参。

测试集 (Test set)

　　通过训练集和验证集得出最优模型后，使用测试集进行模型预测。用来衡量该最优模型的性能和分类能力。即可以把测试集当做从来不存在的数据集，当已经确定模型参数后，使用测试集进行模型性能评价。

交叉验证法 (Cross Validation)

　　其基本思路如下：将训练集划分为K份，每次采用其中K-1份作为训练集，另外一份作为验证集，验证集上K次误差的平均作为该模型的误差。

　　交叉验证的作用就是尝试利用不同的训练集/验证集划分来对模型做多组不同的训练/验证，来应对单独测试结果过于片面以及训练数据不足的问题。

　　交叉验证的目的是为了选择不同的模型类型，而不是选择具体模型的具体参数，模型类型选择完成后，最终的具体参数由全部的训练数据重新训练得到。

posted @ 2020-07-31 16:34 sun-a 阅读(1609) 评论(0) 收藏举报

刷新页面返回顶部