马儿慢些走

人生惶惶,悲喜一场。

2025年5月27日 #

【202501】REGMIX:将数据混合作为回归任务用于语言模型预训练

摘要: 值得关注的: - 数据混合过程能用于制备语料库或者数据集吗? - 关键假设:数据混合排名的不变性,这个假设让作者通过1M小模型的训练来收集数据混合的样本,训练混合预测器后在1B模型上验证。作者的实验使用了1M、60M和1B模型来验证假设,更大规模的模型是否有变化。 - 作者的发现是数据混合的部分规律难以直观理解,说明了模型预测的作用。 - 实验基本上基于数据源的混合完成,更细粒度的实验也有但是对样本的重新聚类是个麻烦的事情。 - 相关工作中提到本文方法是一种离线选择,还有在训练过程中的在线选择。 阅读全文

posted @ 2025-05-27 17:06 马儿慢些走 阅读(65) 评论(0) 推荐(0)

导航