对交叉验证的理解

交叉验证，每一折都对应一个模型，例如5折交叉验证就需要训练5个模型。
交叉验证重点在于验证，通过模型在验证集上的表现，来选择相应的参数，交叉验证，会让验证值更为可靠。
对于有独立测试集的数据，用不用交叉验证来调参根据实际情况，这个时候交叉验证是可有可无的，因为只要测试集是一样的，其他的不管怎么样都行。
对于需要自己划分测试集的情况，模型最终在测试集上的表现，是需要进行，交叉验证的，应该说是交叉测试，因为测试集是随机的，不具有说服力，进行交叉测试用到了全部的数据，这样更有说服力。
对于有独立测试集的情况，在划分训练集和验证集之后，同样可以使用交叉验证，训练多个模型，然后多个模型在测试集上进行测试，最后结果取平均。大家在论文上作指标比较的时候，需要通过前面论文报道结果的方式来选择对应的计算方式，这样才公平。
最终论文报道的结果都是，跑过多次，然后取最高值，因为大家都这样做（滑稽）。
通过验证集上的表现来选择模型参数，一般使用early stop。
我个人是不太喜欢交叉验证的，因为交叉验证浪费时间，神经网络训练一次需要不少时间。
我们在打比赛的时候一般需要用到交叉验证，因为这个时候的测试集没有标签，利用交叉验证我们可以得到较为可靠的验证值。

posted @ 2019-11-19 15:16 哦摩西罗伊阅读(921) 评论(0) 收藏举报

刷新页面返回顶部

哦摩西罗伊

不忘初心，方得始终

对交叉验证的理解

公告