数据处理

编写适合当前任务的数据处理程序,一般涉及如下五个环节:

  读入数据

  划分数据集

  生成批次数据

  训练样本集乱序

  校验数据有效性

数据集:训练集、验证集、测试集

  训练集:用于确定模型参数。

  验证集:用于调节模型超参数(如多个网络结构、正则化权重的最优选择)。

  测试集:用于估计应用效果(没有在模型中应用过的数据,更贴近模型在真实场景应用的效果)。

tips:当几个模型的准确率在测试集上差距不大时,尽量选择网络结构相对简单的模型。往往越精巧设计的模型和方法,越不容易在不同的数据集之间迁移。

训练样本乱序: 先将样本按顺序进行编号,建立ID集合index_list。然后将index_list乱序,最后按乱序后的顺序读取数据。

  通过大量实验发现,模型对最后出现的数据印象更加深刻。训练数据导入后,越接近模型训练结束,最后几个批次数据对模型参数的影响越大。为了避免模型记忆影响训练效果,需要进行样本乱序操作。

 

posted @ 2023-10-29 22:28  花都八达鸟  阅读(82)  评论(0)    收藏  举报