马儿慢些走

人生惶惶,悲喜一场。

2025年5月23日 #

【202406】预训练器的数据指南:衡量数据年龄、领域覆盖、质量和毒性的影响

摘要: - 值得注意的内容: - 数据年龄问题,表面上越新越好,训练数据比评估数据旧就会导致性能下降。 - 但是,评估的内容是具有时间标签的,理所应当当然需要更新的模型来理解。 - 时间退化概念,本文之前就有人提出,2022年。 - 领域覆盖:多样性很重要。 - 质量和毒性的影响:质量和毒性是两个维度,质量过滤很必要,毒性过滤不一定。 - 质量是一个很复杂的概念,模型的毒性生成和毒性识别能力需要平衡。 - 附录里有很多很详细的内容,看不过来了。 阅读全文

posted @ 2025-05-23 17:29 马儿慢些走 阅读(41) 评论(0) 推荐(0)

导航