【202411】Zyda-2:一个包含五万亿标记的高质量数据集
摘要:
关注几个问题:
- 通过交叉混合几个公开数据集制作更高质量的数据集;
- 数据集中的文档去重到底有用吗?模型过滤呢?
- 交叉去重时候使用的方案:基于词袋的哈希计算相似度、构建无向图生成聚类。 阅读全文
posted @ 2025-05-21 17:37 马儿慢些走 阅读(42) 评论(0) 推荐(0)
人生惶惶,悲喜一场。
2025年5月21日 #
posted @ 2025-05-21 17:37 马儿慢些走 阅读(42) 评论(0) 推荐(0)
posted @ 2025-05-21 15:52 马儿慢些走 阅读(54) 评论(0) 推荐(0)