CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用

尽管优化预训练数据混合对大型语言模型(LLM)的性能有显著影响,但确定最优数据配比仍然是一个亟待解决的挑战。为应对这一问题,英伟达提出了一种名为CLIMB(CLustering-based Iterative data Mixture Bootstrapping)的自动化框架,该框架能够在预训练环境中系统地发现、评估并优化数据混合策略。CLIMB通过在语义空间中嵌入并聚类大规模数据集,并结合小型代理模型与性能预测器,迭代搜索最优数据混合比例。

技术创新点

CLIMB框架主要贡献体现在以下三个方面:

  • 提出了一种基于语义嵌入的数据混合方法,能够自动识别、分组并混合高质量的数据聚类,实现高效的领域特定训练,同时消除了对人工预定义领域标签的依赖。

  • 设计了创新的迭代搜索机制,能够在训练过程中动态优化数据混合比例,平衡多样性与领域相关性,同时有效解决了数据聚类与过滤过程中的扩展性挑战。

  • 构建了一个包含20个语义聚类、经过质量过滤的1.2万亿词元语料库,为数据混合研究提供了新的实验基础,并进一步提炼出一个高质量的4000亿词元预训练数据集。



https://avoid.overfit.cn/post/a326f45fca2f4e90828526ed568ee620
posted @ 2025-04-23 11:38  deephub  阅读(16)  评论(0)    收藏  举报