对交叉验证的认识

在我们比赛的算法中，我们使用了交叉验证方法来筛选比较重要的特征，现在我们来了解一下什么是交叉验证(Cross-Validation)：有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。

交叉验证对于人工智能，机器学习，模式识别，分类器等研究都具有很强的指导与验证意义。
基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.

数据集分割原则

交叉验证在，原始数据集分割为训练集与测试集，必须遵守两个要点：

训练集中样本数量必须够多，一般至少大于总样本数的 50%。

两组子集必须从完整集合中均匀取样。

其中第 2 点特别重要，均匀取样的目的是希望减少训练集/测试集与完整集合之间的偏差(bias)，但却也不易做到。一般的作法是随机取样，当样本数量足够时，便可达到均匀取样的效果。然而随机也正是此作法的盲点，也是经常是可以在数据上做手脚的地方。举例来说，当辨识率不理想时，便重新取样一组训练集与测试集，直到测试集的辨识率满意为止，但严格来说便算是作弊。

posted @ 2017-06-24 19:26 jju_iipg 阅读(333) 评论(0) 收藏举报

刷新页面返回顶部

JJU-IIPG

Love technology,love life!

对交叉验证的认识

公告