马儿慢些走

人生惶惶,悲喜一场。

2025年5月21日 #

【202411】Zyda-2:一个包含五万亿标记的高质量数据集

摘要: 关注几个问题: - 通过交叉混合几个公开数据集制作更高质量的数据集; - 数据集中的文档去重到底有用吗?模型过滤呢? - 交叉去重时候使用的方案:基于词袋的哈希计算相似度、构建无向图生成聚类。 阅读全文

posted @ 2025-05-21 17:37 马儿慢些走 阅读(42) 评论(0) 推荐(0)

【202304】MiniPile:面向数据高效的语言模型挑战

摘要: 全文很短,但是值得注意的部分: 1. 对大规模数据通过语义聚类实现去重的必要性。 2. 人工筛选聚类的时候排除了哪些类型的聚类。 3. 本文大比例地数据筛选,实验数据仅在BERT、T5小模型上实现,在更大模型上是否存在变化? 阅读全文

posted @ 2025-05-21 15:52 马儿慢些走 阅读(54) 评论(0) 推荐(0)

导航