【202412】Nemotron-CC：将CC转化为精炼的长距离预训练数据集

关注以下几点：

模型过滤和启发式过滤的选择。
多个质量分类器的使用和集成。
通过改写合成数据。

基本信息

标题： Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset

标题中文翻译： Nemotron-CC：将 Common Crawl 转化为精炼的长距离预训练数据集

作者： Dan Su, Kezhi Kong, Ying Lin, Joseph Jennings, Brandon Norick, Markus Kliegl†, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

发表时间： 2024 年 12 月 3 日

发表地址： 2412.02595

摘要：

近年来，从 Common Crawl 中提取的英文数据集（如 FineWeb-Edu 和 DCLM）通过激进的模型过滤在基准测试中取得了显著的进步，但代价是损失了 90% 的数据。这限制了它们在长距离训练（例如 Llama 3.1 的 15T tokens）中的适用性。本文展示了如何通过分类器集成、合成数据改写和减少对启发式过滤的依赖来实现准确性和数据量之间的更好权衡。当训练 8B 参数模型 1T tokens 时，使用我们数据的高质量子集比 DCLM 提高了 5.6 的 MMLU，这证明了我们的方法在相对较短的 token 范围内提高准确性的有效性。此外，我们的完整 6.3T token 数据集在 MMLU 上与 DCLM 相当，但包含 DCLM 四倍的唯一真实 token。这使得在长距离范围内进行最先进的训练成为可能：一个训练了 15T tokens 的 8B 参数模型，其中 7.2T 来自我们的数据集，比 Llama 3.1 8B 模型更优秀：MMLU 提高 5，ARC-Challenge 提高 3.1，十个不同任务的平均分提高 0.5。该数据集可在 https://data.commoncrawl.org/contrib/Nemotron/Nemotron-CC/index.html 获取。

这个语料库是英伟达公司制作的，发布在CC网站的contrib部分，CC可以让第三方发布基于CC制作的语料库吗？

论文速读

这篇文章介绍了一种名为 Nemotron-CC 的方法，用于将英文 Common Crawl 数据转化为高质量的、适合长距离训练的语言模型预训练数据集。

主要内容包括：

数据量与质量的权衡：之前的 Common Crawl 数据集如 FineWeb-Edu 和 DCLM 通过模型过滤提高了数据质量，但同时也导致了数据量的巨大损失，不适合长距离训练。P1
Nemotron-CC 方法：该方法结合了分类器集成、合成数据改写和减少对启发式过滤的依赖，在保证数据质量的同时提高了数据量。P2
数据集构建： Nemotron-CC 数据集包含 6.3T 个 tokens，其中 4.4T 是去重的原始 tokens，1.9T 是合成 tokens。P2
实验结果：与 DCLM 和 FineWeb-Edu 相比，Nemotron-CC 在 MMLU 等基准测试中取得了更好的成绩，并且在长距离训练中也能达到最先进的水平。P2
消融实验：实验结果表明，分类器集成、数据改写和减少启发式过滤都有效地提高了数据质量和模型性能。P6P7

核心观点：

通过结合多种技术，可以在保证数据质量的同时提高数据量，从而更适合长距离训练。P2
分类器集成和数据改写是提高数据质量和模型性能的有效方法。P6P7
减少对启发式过滤的依赖可以进一步提高数据量，而不会影响模型性能。P6P7
Nemotron-CC 数据集为长距离训练提供了高质量的预训练数据，有望推动语言模型的发展。

关注一下为什么说能够减少对启发式过滤的依赖。

好像吴迪那边在做这方面的工作。

1 引言

网络爬虫是训练大型语言模型（LLMs）的独特标记的最大来源，可以看作是服务于两个主要目的：高质量内容和多样性。最近从网络爬虫中提取的英文数据集，如FineWeb-Edu（Penedo et al., 2024）和DCLM（Li et al., 2024），强调了高质量内容，这在数据量上提高了基准测试的准确性。它们展示了在小规模上取得与一些最佳封闭模型相媲美的基准结果的显著进步（例如，DCLM的7B模型在2.6T标记上训练），这主要归功于使用基于模型的过滤器来提取高质量的教育和指导内容。然而，这是以数据量为代价的：它们移除了大约90%的数据。这种激进的修剪可能不是在更长的标记范围内训练更大模型（例如，Llama 3.1包括8B-405B参数模型，训练了15T标记（Dubey et al., 2024）和Gemma 2 27B训练了13T标记（Team et al., 2024））时最有效的策略。DCLM和FineWeb-Edu都包含了大约80%的近似重复项（分别为1T和0.2T唯一标记）（Ben Allal, 2024; Li et al., 2024），在这些数据集上训练数万亿标记意味着在训练过程中多次看到本质上相同的样本。这可能导致模型性能较差，因为Muennighoff et al.（2024）发现，在训练更多独特标记后，经过四个周期的比较，收益递减。

总结两个问题：质量过滤丢弃的语料太多，保留的重复语料太多。讲述的目的是用更长更多语料训练更大模型。

在本文中，我们展示了如何通过结合分类器集成、合成数据生成和减少对启发式过滤器的依赖来实现基准准确性和数据量之间的更好权衡。我们的主要贡献是：

我们提出了一种将英文网络爬虫转换为6.3T标记的长视野预训练数据集的方法，包括4.4T全局去重的原始标记和1.9T合成生成的标记。我们发布了数据集，并计划将实现作为开源NeMo Curator库的一部分发布。

NVIDIA/NeMo-Curator：适用于 LLM 的可扩展数据预处理和管理工具包

利用 NVIDIA NeMo Curator 为 LLM 训练整理自定义数据集 - NVIDIA 技术博客

NeMo Curator | NVIDIA 开发者

NeMo | 构建自定义生成式 AI | NVIDIA

英伟达 NeMo 和 NeMo Curator 资料。NeMo Curator 应该是 NeMo 中的数据标注和管理的框架。

((20250513144323-meckly1 '英伟达NeMo和NeMo Curator'))
我们通过与最先进的开放英文网络爬虫数据集DCLM和FineWeb-Edu进行比较，证明了这种方法的有效性（图1）。 (a) 我们数据的1.1T标记高质量子集在MMLU上比DCLM提高了5.6，展示了我们的方法在相对较短的标记视野上的优越性。 (b) 我们的完整数据集与DCLM表现相当，但包含的高质量真实标记是DCLM的4倍。 (c) 这种更大的规模使得在长标记视野上取得了最先进的结果：使用我们数据集的加权版本训练的8B参数模型在15T标记上实现了比Llama 3.1 8B更高的整体准确性，特别是MMLU 70.3对比Llama的65.3。请注意，Llama 3.1 8B也在15T标记上进行了训练（Dubey et al., 2024）。

注意：1.1T标记的高质量子集是如何筛选的？“较短的标记视野”这意思应该是语料库的规模小。高质量真实标记是DCLM的4倍，如何测算？测试数据集是MMLU。测试模型和规模是8B模型15T标记数据。
我们进行了消融研究，发现： (a) 集成不同的基于模型的分类器可以帮助选择更大、更多样化的高质量标记集。 (b) 改写可以有效地减少低质量数据中的噪声和错误，并产生具有新鲜独特标记的多样化变体，从而在下游任务中获得更好的结果。 (c) 对于高质量数据禁用传统的非学习启发式过滤器可以进一步提高高质量标记的产量而不损害准确性。

注意：这里基于模型的分类器用途是什么？传统非机器学习的启发式过滤就直接被禁止了？

最后，我们注意到我们的总体指导原则是从静态的、非学习的启发式流程转向一个更学习的飞轮，其性能将随着时间的推移自然变得更好。随着我们数据的改进，我们训练的LLMs也会改进，这些改进的LLMs将反过来改进我们的数据，因为我们使用它们生成更好的合成数据和质量分类。

其实原本的启发式流程也会随着基础CC数据的改变获得新结果，当然模型的更新相比手动更新规则可能更容易。

2 方法

在本节中，我们解释了我们为构建最佳的英文网络爬虫预训练数据集所做的努力。我们的工作可以分为三个部分。首先，我们讨论了在第2.1节中通过更恰当地利用文本提取器和启发式过滤器来提高标记产量的努力。其次，我们在第2.2节中介绍了基于模型的质量标记管道方法。第三，我们在第2.3节中介绍了我们的合成数据生成方法，以进一步提高数据质量。

2.1 HTML到文本提取器和过滤器

从HTML中提取的文本是LLM预训练数据集的基础和主要来源，因此分析和理解提取工具以获得最佳数据质量和标记产量非常重要。此外，启发式过滤器通常被用来移除低质量的标记，这些过滤器使用人为设计的启发式方法（Li et al., 2024; Parmar et al., 2024; Penedo et al., 2024; Dubey et al., 2024），这也可能将好的标记置于被移除的风险中。我们借助FineWeb-Edu分类器（Penedo et al., 2024），一个已证明在识别对LLMs强度提升有重要意义的高质量标记方面有效的基于模型的质量分类器，仔细检查这两个方面。

提取和过滤标记计数统计（十亿）

HTML到文本提取 我们测试了两个HTML到文本提取器，Justext（Pomikálek, 2011）和Trafilatura（Barbaresi, 2021）。从质量上看，我们认为两个提取器处于同一水平。虽然从数量上看，我们计算了两个提取器在13个选定的网络爬虫快照上的标记产量（见附录D）。统计数据在表1中报告。我们看到Justext可以产生更多的标记，特别是更多的高质量标记（+28.6%），这是根据Fineweb-Edu分类器的标准（得分3、4和5）。我们强调，提高唯一标记数量在构建长视野预训练数据集时非常重要，例如Llama3.1的15T标记。我们只保留英文文本，这是由pycld24和FastText lid176语言分类器5确定的，阈值为0.3（Joulin et al., 2016a,b）。提取后，我们应用全局模糊去重以及精确子字符串去重（Lee et al., 2022），使用NeMo Curator库6和deduplicate-text-datasets库，7分别进行。

“提高唯一标记数量”是什么意思？大意应该是降低语料的重复率。
工具：NeMo Curator和deduplicate-text-datasets库用来做全局模糊去重和精确子字符串去重。

过滤传统上，启发式过滤器被用来从预训练数据集中移除低质量标记，作为一个后处理步骤（Li et al., 2024; Parmar et al., 2024; Penedo et al., 2024; Dubey et al., 2024）。我们重新审视了（Parmar et al., 2024）中的过滤管道。这样的管道依次包括一组由Raffel et al.（2020）; Rae et al.（2021）提出的启发式过滤器，以及基于KenLM模型（Heafield, 2011）训练在维基百科和书籍数据（Wenzek et al., 2020）上的困惑度过滤器。为了更好地量化理解过滤管道的有效性，我们计算了标记产量，并在表1中报告了数字。我们发现过滤管道从数据集中移除了相当一部分高质量标记（-18.1%），这些标记被FineWeb-Edu分类器分类。鉴于启发式过滤器对高质量标记产量的影响，我们建议不要对模型基质量分类器（在下一节中描述）区分的高质量标记应用这些过滤器，但只在低质量部分使用。在实验部分，我们通过下游基准测试实证验证了提取器和过滤器对预训练数据质量的影响。我们请读者参考第3.3节以获取详细结果。

意思是用FineWeb-Edu分类器判断文本质量，观察过滤管道排除了多少高质量文本。问题：过滤的时候困惑度过滤器参与了吗？困惑度过滤也是模型过滤，要被排除在高质量过滤中吗？如果只在低质量部分应用启发式过滤，就是模型过滤之后再对低质量部分应用启发式过滤？

2.2 基于模型的质量标记

最近的研究（Li et al., 2024; Penedo et al., 2024）使用基于模型的分类器从英文网络爬虫中提取高质量的预训练文档。然而，这两种质量分类器的召回率有限（高质量标记的召回率不到10%），这将成为在更长的时间范围内训练LLM的瓶颈。此外，质量分类器分配的质量标签不一定与LLM的下游任务性能一致。因此，我们提出了我们的基于集成的质量标记管道方法。具体来说，我们首先构建了三个质量分类器，每个分类器对高质量有不同的偏好。然后，我们集成这三个分类器对所有文档进行评分，并将爬虫语料库根据质量评分分成不同的质量桶。最后，我们根据它们在下游任务上的表现将细粒度的文档桶重新分组为5个不同的质量级别。

基本逻辑是根据通过多个质量分类器细化语料的质量评分（相当于扩展质量评分的维度），再通过下游任务表现调整语料评分级别划分（根据结果指导评分依据）。

质量分类器训练

准备带有质量注释的预训练文档是构建质量分类器的第一个关键步骤（Dubey et al., 2024; Abdin et al., 2024; Yang et al., 2024）。类似于（Penedo et al., 2024）的工作，我们构建了两个版本的质量注释数据。我们提示Mistral 8x22B-instruct和Nemotron340B-instruct（Adler et al., 2024），根据其教育价值对FineWeb中的网络文档进行评分，评分范围为0到5。然后我们在Snowflakearctic-embed-m嵌入模型（Merrick et al., 2024）的基础上微调一个线性回归模型，使用两个不同版本的训练集。这两个模型经过20个周期的训练，学习率为3e-4，嵌入和编码器层冻结，我们选择了在保留验证集上F1分数最高的检查点。我们还使用了DCLM分类器，这是一个由Li et al.（2024）发布的基于fastText的分类器。DCLM分类器在指令格式数据（Teknium, 2023）和ELI5 subreddit（Fan et al., 2019）的高评分帖子数据上训练，与FineWeb-Edu分类器（Penedo et al., 2024）相比，在识别高质量预训练标记方面表现更强。DCLM分类器将提供一个新的视角来标记高质量预训练文档，并有助于提高高质量标记的召回率。

注意这里使用的模型规模，用于打标的大模型为8*22B和340B；用于微调线性回归评分的Snowflake模型规模为110M，BERT级别；DCLM分类器基于FastText，n-gram词袋模型，但是规模未知（待查）。
三个质量分类模型，前两种是Snowflake线性回归模型基于Mistral和Nemotron两种大模型打标，和FineWeb-Edu的流程一致（Llama 70B打标+Snowflake线性回归）；第三种是FastText类型的DCLM分类器。

质量评分和分桶

首先，我们使用每个分类器为所有文档预测质量评分。然后根据每个分类器的质量评分排名，我们将模型的输出评分四舍五入到0到19之间的整数。这样每个评分桶将有大约5%的文档，而桶19将包含质量最高的5%文档。然后我们通过最大操作集成三个分类器的整数评分来为每个文档分配最终的质量评分。由于集成操作，每个桶中的文档分布将会倾斜。

score = max(score_1, score_2, score_3), 0 <= score_i <= 19；每个样本的最终得分在0到19之间，分别对应20个桶（bucket）。

质量标记

为了分配一个更符合它们在下游任务上实际表现的质量标签，我们进一步将三个分类器预测的细粒度质量评分分为5个下游质量类别。我们使用退火来访问每个数据桶的下游任务质量。具体来说，我们通过在70%训练的8B模型上连续预训练50B标记来衡量每个桶的质量。我们将66%的权重分配给默认数据混合，34%分配给我们正在评估的数据集。通过比较每个桶在9个任务上的平均表现，我们将20个桶分为5个大类别，最终分布如表2所示。

目标是评估20个桶的样本质量，评估方法是退火。这里的退火是指在没训练完的模型上持续预训练，看模型训练后在9个任务上的效果。但是，66%权重分配给默认数据混合，34%分配给评估数据集是什么意思？

2.3 合成数据生成

在审查不同质量等级的样本后，我们观察到得分较低的文档往往包含更多的噪声和错误，而得分较高的文档通常表现出良好的写作和格式化。因此，我们在生成低质量和高质量文档数据时采用不同的策略。

对于低质量数据，我们的目标是通过减少噪声和错误来提高质量，同时保留有用信息，从而降低训练计算成本。正如Maini等人（2024年）所示，使用中等大小的语言模型改写网络数据可以产生增强的合成数据并行语料库，从而降低模型困惑度并提高其在下游任务中的准确性。与创建新内容（如教科书和短篇故事）的现有方法不同，我们的改写方法不利用语言模型作为知识库，而是专注于将提供的文本转换为另一种风格，使其能够以更轻量级的模型运行。我们采用Maini等人（2024年）的维基百科风格提示来重写低质量文档（附录F中的提示5），这有效地减少了错误和冗余并改善了格式。

注意点：没有引入其他语言模型的知识，仅改写语言风格，减少语料噪声（错误和冗余信息）。

对于高质量数据，我们的目标是获取更多独特的标记并浓缩核心知识。根据Muennighoff等人（2024年）的研究，添加重复标记的收益递减，特别是在4个周期之后。对于高质量文档，我们使用四种额外的提示生成合成数据：

（1）多样化问答（QA）对：以各种形式（例如，是/否问题、开放式问题、多项选择问题）提出有关文本中事实信息的问题并提供正确答案；

（2）蒸馏：将文本重写为简洁明了的段落；

（3）提取知识：从文本中重写知识并忽略非信息性内容；什么是非信息内容？

（4）知识列表：从文本中提取关键信息作为有组织的列表。要把内容组织为列表？

我们要求模型在保留事实信息和具体细节（如数字）的同时提供清晰简洁的回答。完整的提示显示在附录F中。

随着提供文本长度的增加，模型倾向于产生简化的输出，细节减少。因此，我们将每个文档分成段，每个段包含一个或多个完整行，并且短于特定的标记限制。超过标记限制的过长行将被丢弃。

我们的后处理步骤包括删除不完整的结果，消除特定的Markdown格式（例如，双星号），剥离某些模式的前缀（例如，“以下是改写版本：”和“改写文本：”），删除包围整个响应的引号，以及过滤掉短于50个标记的输出。对于维基百科结果，我们将属于同一原始文档的段生成的段落连接起来。对于多样化QA对结果，我们打乱生成的问题和答案对，保留基于段长度的数量，并在段的末尾附加这些对。

使用Mistral NeMo 12B的指令版本进行FP8推理，我们合成了超过1.8T标记，如表3所示，包括来自低质量文档的336.3B标记和来自高质量文档的1.5T标记。我们不使用中等质量文档进行合成数据生成。我们采用TensorRT-LLM和NeMo-Skills来实现大规模数据合成。

注意这里的数据规模。为什么不用中等质量文档进行数据合成？

2.4 整合所有内容

将上述技术应用于99个快照 CC-MAIN-2013-20 到 CC-MAIN-2024-30 的网络爬虫，我们创建了一个6.3T标记的数据集（Nemotron-CC），包括4.4T全局去重的原始标记和1.9T合成衍生标记。这个数据集比FineWebEdu-2和DCLM大约有4倍的独特标记，因为这两个数据集只进行了分片形式的近似去重，并且包含大约80%的模糊重复项（Ben Allal, 2024; Li et al., 2024）。为了在相对较短的标记视野上进行更公平的比较，我们还考虑了我们数据的一个1.1T标记的高质量子集（Nemotron-CC-HQ），仅包含得分最高的真实和多样化QA对合成数据。数据集的大小分布如表4所示。

注意数据来源和规模。所谓的“相对较短的标记视野”应该就是“预训练数据规模较小”的意思。

3 实验

3.1 实验设置

训练设置 我们使用开源的Megatron-LM库（Shoeybi et al., 2019）来训练标准的8B参数变压器LLMs。超参数细节显示在附录C中。

数据混合 除非另有说明，我们在73%英文网络爬虫数据和27%固定混合的专门数学、代码、论文、书籍、专利和维基百科数据集（Adler et al., 2024）上进行1T标记的训练。在比较数据集时，我们只改变73%的英文网络爬虫部分。

评估设置 我们使用开源的LM Evaluation Harness库（Gao et al., 2023）来评估以下十个常识和推理任务（括号内报告的指标）：ARC-Easy和ARC-Challenge（归一化准确率）（Clark et al., 2018），Hellaswag（归一化准确率）（Zellers et al., 2019），Winogrande（准确率）（Sakaguchi et al., 2021），RACE（准确率）（Lai et al., 2017），PIQA（归一化准确率）（Bisk et al., 2020），Social IQA（准确率）（Sap et al., 2019），Commonsense QA（准确率）（Talmor et al., 2019），Openbook QA（归一化准确率）（Mihaylov et al., 2018），和MMLU（准确率）（Hendrycks et al., 2021）。

3.2 主要结果

短标记视野（1T） 为了验证我们数据集的质量，我们首先在相对较短的1T标记视野上训练标准的8B参数变压器LLMs。结果如表5所示。我们的高质量数据集（Nemotron-CC-HQ）在除RACE外的所有任务上都显示出比DCLM和FineWeb-Edu更高的准确性。特别是，与DCLM相比，MMLU提高了5.6，平均提高了3.1。这表明我们的分类器集成和合成数据即使在非数据受限环境中也是有效的。我们的完整6.3T标记数据集（Nemotron-CC）在MMLU和平均准确性方面与DCLM大致相当。但由于这个数据集包含的独特真实标记是DCLM的4倍，我们期望它在数据受限的环境中，如15T标记训练运行中表现更优。

看表格5的指标，1T数据和6.3T数据的训练效果相差不大，尽管数据量提高了很多数倍。所以到底需要多少数据量来训练8B模型？

长标记视野（15T） 我们的数据集为训练8B模型15T标记贡献了7.2T标记。如表6所示，我们的模型比同样训练了15T标记的Llama 3.1 8B模型实现了更高的平均准确性，包括MMLU 70.3对比Llama的65.3。这表明我们的数据集确实适合在长标记视野上进行最先进的训练。

好像没说15T的数据是如何来的？Nemotron-CC数据是6.3T。

3.3 消融研究

为了进一步研究我们方法中每个模块的贡献和效果，我们进行了彻底的消融研究。

提取器和过滤器比较 正如我们在第2.1节中讨论的，通过部署Justext而不是Trafilatura，并从后处理步骤中移除过滤器，我们可以获得显著更多的高质量标记。我们还进行消融研究，以更好地理解提取器选择和移除过滤器对下游基准测试的影响。我们进行了四个8B-1T实验。我们在表7中报告了基准测试分数。除了通过使用Justext而不是Trafilatura以及不使用启发式过滤器获得的标记产量好处外，我们看到结合这两种方法对下游任务准确性的影响只有微小的差异（比较Trafilatura过滤与Justext未过滤）。此外，当我们仅从高质量标记中移除过滤器时，结果得到进一步改善（比较Justext未过滤与Justext HQ未过滤）。特别是，MMLU提高了+2%。请注意，移除过滤器的动机是为了提高标记产量，特别是在高质量标记上，因为这种标记的稀缺性。鉴于实验结果并考虑到整体标记产量的增长，我们选择仅从高质量标记中移除过滤器。

分类器比较 组装不同的分类器来标记文档质量是构建我们数据集的关键步骤之一，因此我们对组件进行了详细分析和比较。

我们对我们方法中使用的两种分类器进行了详细比较：基于教育水平评分文档质量的FineWeb-Edu分类器，以及重视文档信息性的DCLM分类器。我们比较了两个分类器预测的高质量文档。我们在随机选择的网络爬虫快照（CC-MAIN-2021-21）上比较了高质量文档。表8显示了文档统计比较。我们可以看到，只有10%的文档被两个分类器都预测为高质量，而35.4%的文档仅被FineWeb-Edu分类器预测为高质量，54.4%的文档仅被DCLM分类器预测为高质量。因此，组装不同的分类器可以增加从网络爬虫中召回高质量文档的能力。

我们进一步通过下游任务的性能比较每种分类器与集成方法。我们使用两个不同版本的训练集在1T标记上预训练8B参数LLMs。两个模型经过20个周期的训练，学习率为3e-4，嵌入和编码器层冻结，我们选择了在保留验证集上F1分数最高的检查点。

集成方法在高质量标记百分比上从9%大幅提高到25%，同时在所有任务上平均实现了最高的通用语言理解性能。集成方法在高质量标记百分比上也优于FineWeb-Edu分类器和DCLM分类器，并且在9个评估任务上表现相当或略好。这非常重要，因为更多的独特高质量标记是预训练更大LLMs在更长标记视野上的关键。

评估合成数据 根据表10所示，这项消融研究旨在回答两个问题：（1）重新表述低质量数据是否能提高下游任务的准确性？（2）合成数据是否能帮助抵消重复数据价值下降的问题（Muennighoff等人，2024年报告）？为了回答这些问题，我们在不同混合的1T标记上训练了四个具有相同超参数的8B模型：（1）LQ-Base：原始的通用爬虫数据；（2）LQ-Synthetic：LQ-Base的增强版本，其中低质量文档被重新表述；（3）HQ-Base：包含八分之十高质量文档和较少低质量和中等质量文档的混合；（4）HQ-Synthetic：HQ-Base的一种变体，其中高质量文档的4次重复被合成数据集替换。

通过比较LQ-Base和LQ-Synthetic之间的结果，我们可以看到重新表述低质量数据平均得分绝对提高了1.50。我们还观察到在ARC-Easy、ARC-Challenge、OpenbookQA、CommonsenseQA上从1.80%到4.75%的显著提升；然而，我们也遇到了一些任务上的轻微准确性下降，这可能表明数据合成引入了潜在的错误信息。当前实践通常利用数据整理方法来检测和消除噪声示例。由于时间和资源限制，我们将这一问题的详细探索留待未来的努力。

HQ-Base和HQ-Synthetic之间的比较表明，将8个周期中的4个周期的高质量数据与合成数据集的混合替换可以提高大多数基准测试的准确性。这种改进可能来自两个因素：引入了新的独特的标记和风格，使模型能够学习特定能力（例如，问题回答）或更有效地吸收知识。

4 相关工作

Phi系列模型开创了在小量的高质量数据上进行训练，包括策划的网络和合成数据（Gunasekar et al., 2023; Li et al., 2023; Abdin et al., 2024）。然而，它们专注于较短的标记视野，并且共享有限的细节。FineWeb-Edu和DCLM是我们论文的主要比较点（Li et al., 2024; Penedo et al., 2024）。我们基于他们的核心思想构建了基于模型的过滤，但展示了如何通过结合其他技术来改进过滤和数据量。其他英文通用爬虫数据集如C4、DOLMA、Gopher、Refined-Web、TxT360主要关注提取和非学习启发式（Penedo et al., 2023; Soldaini et al., 2024; Rae et al. 2021; Raffel et al. 2020; Tang et al. 2024）。就像FineWeb-Edu和DCLM一样，我们开始的核心管道结合了许多这些思想，但我们的论文描述了如何修改和超越这些非学习技术以实现最先进的准确性和多样性。同时进行的工作Zyda-2展示了如何过滤、交叉去重和结合FineWeb-Edu、DCLM、Zyda-1和Dolma-CC数据集以更高的准确性和更大的整体（Tokpanov et al. 2024）。相比之下，我们专注于创建一个新的英文通用爬虫数据集的技术，而不是现有数据集的组合或修改。最后，许多工作致力于创建多语言数据集（Xue et al., 2021; Brack et al., 2024; Abadji et al. 2022; Wenzek et al., 2020; Kudugunta et al., 2023）。我们将我们的想法扩展到英语以外的语言留待将来。

5 结论

为了从英文通用爬虫数据中为LLM生成长视野预训练标记，我们展示了如何改进现状并在基准准确性和数据量之间实现更好的权衡，通过独特真实标记的数量来衡量。具体来说，我们展示了集成基于模型的质量过滤器、重新表述低质量和高质量文档以及减少对非学习启发式的依赖。

6 局限性

我们的工作存在一些关键局限性，如下所述。对于基于模型的过滤器集成和质量分桶，我们只有时间和资源来尝试单一策略。虽然它是有效的，但在未来的工作中可能会有所改进，特别是在提高高质量端的敏感性方面。对于重新表述的数据，我们没有验证其对原始内容的事实准确性或忠实度。需要更多的工作来理解在此设置中幻觉或内容多样性丧失的风险，以及如何减轻这些风险。我们也只关注了低质量和高质量数据的重新表述。探索如何最好地重新表述中等质量数据也很有趣。我们没有对管道的所有部分进行消融。例如，语言识别方面可能还有改进的空间。最后，我们只在英文文本上尝试了我们的方法。需要更多的工作来使我们的方法适应其他语言。

posted on 2025-05-22 09:38 马儿慢些走阅读(77) 评论(0) 收藏举报

刷新页面返回顶部

马儿慢些走