CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
尽管优化预训练数据混合对大型语言模型(LLM)的性能有显著影响,但确定最优数据配比仍然是一个亟待解决的挑战。为应对这一问题,英伟达提出了一种名为CLIMB(CLustering-based Iterative data Mixture Bootstrapping)的自动化框架,该框架能够在预训练环境中系统地发现、评估并优化数据混合策略。CLIMB通过在语义空间中嵌入并聚类大规模数据集,并结合小型代理模型与性能预测器,迭代搜索最优数据混合比例。
技术创新点
CLIMB框架主要贡献体现在以下三个方面:
-
提出了一种基于语义嵌入的数据混合方法,能够自动识别、分组并混合高质量的数据聚类,实现高效的领域特定训练,同时消除了对人工预定义领域标签的依赖。
-
设计了创新的迭代搜索机制,能够在训练过程中动态优化数据混合比例,平衡多样性与领域相关性,同时有效解决了数据聚类与过滤过程中的扩展性挑战。
-
构建了一个包含20个语义聚类、经过质量过滤的1.2万亿词元语料库,为数据混合研究提供了新的实验基础,并进一步提炼出一个高质量的4000亿词元预训练数据集。
https://avoid.overfit.cn/post/a326f45fca2f4e90828526ed568ee620