数据处理
编写适合当前任务的数据处理程序,一般涉及如下五个环节:
读入数据
划分数据集
生成批次数据
训练样本集乱序
校验数据有效性
数据集:训练集、验证集、测试集
训练集:用于确定模型参数。
验证集:用于调节模型超参数(如多个网络结构、正则化权重的最优选择)。
测试集:用于估计应用效果(没有在模型中应用过的数据,更贴近模型在真实场景应用的效果)。
tips:当几个模型的准确率在测试集上差距不大时,尽量选择网络结构相对简单的模型。往往越精巧设计的模型和方法,越不容易在不同的数据集之间迁移。
训练样本乱序: 先将样本按顺序进行编号,建立ID集合index_list。然后将index_list乱序,最后按乱序后的顺序读取数据。
通过大量实验发现,模型对最后出现的数据印象更加深刻。训练数据导入后,越接近模型训练结束,最后几个批次数据对模型参数的影响越大。为了避免模型记忆影响训练效果,需要进行样本乱序操作。

浙公网安备 33010602011771号