【202406】预训练器的数据指南:衡量数据年龄、领域覆盖、质量和毒性的影响
摘要:
- 值得注意的内容:
- 数据年龄问题,表面上越新越好,训练数据比评估数据旧就会导致性能下降。
- 但是,评估的内容是具有时间标签的,理所应当当然需要更新的模型来理解。
- 时间退化概念,本文之前就有人提出,2022年。
- 领域覆盖:多样性很重要。
- 质量和毒性的影响:质量和毒性是两个维度,质量过滤很必要,毒性过滤不一定。
- 质量是一个很复杂的概念,模型的毒性生成和毒性识别能力需要平衡。
- 附录里有很多很详细的内容,看不过来了。 阅读全文
posted @ 2025-05-23 17:29 马儿慢些走 阅读(41) 评论(0) 推荐(0)
浙公网安备 33010602011771号