数据处理

编写适合当前任务的数据处理程序，一般涉及如下五个环节：

　　读入数据

　　划分数据集

　　生成批次数据

　　训练样本集乱序

　　校验数据有效性

数据集：训练集、验证集、测试集

　　训练集：用于确定模型参数。

　　验证集：用于调节模型超参数（如多个网络结构、正则化权重的最优选择）。

　　测试集：用于估计应用效果（没有在模型中应用过的数据，更贴近模型在真实场景应用的效果）。

tips：当几个模型的准确率在测试集上差距不大时，尽量选择网络结构相对简单的模型。往往越精巧设计的模型和方法，越不容易在不同的数据集之间迁移。

训练样本乱序：先将样本按顺序进行编号，建立ID集合index_list。然后将index_list乱序，最后按乱序后的顺序读取数据。

　　通过大量实验发现，模型对最后出现的数据印象更加深刻。训练数据导入后，越接近模型训练结束，最后几个批次数据对模型参数的影响越大。为了避免模型记忆影响训练效果，需要进行样本乱序操作。

posted @ 2023-10-29 22:28 花都八达鸟阅读(93) 评论(0) 收藏举报

刷新页面返回顶部

hdbdn