高质量数据集

训练模型的第一步就是找数据集. 面对浩如烟海的数据集, 我们经常会听到"高质量数据集" (high-quality dataset), 可是什么是高质量数据集, 如何评价和选择数据集呢?

  • 准确性

尤其在 supervised task 中, 标签应该尽可能表示真实的类别.

  • 完整性

数据最好全面包含问题所有方面, 否则模型任意出现偏差.

  • 平衡性

对于分类任务, 最好每种类别数量接近.

  • 低噪音

噪音最好小, 同时可以通过预处理等方式进行降噪. 也可以采用 robost 算法或数据增强等手段使模型泛化能力更强.

  • 多样性

比如, 音频最好包含不同口音, 不同年龄群体的

  • 及时性

对于某些时间敏感数据, 新的比旧的好

posted @ 2024-07-28 23:11  我千五可以  阅读(848)  评论(0)    收藏  举报