马儿慢些走

人生惶惶,悲喜一场。

【202304】MiniPile:面向数据高效的语言模型挑战

全文很短,但是值得注意的部分:

  1. 对大规模数据通过语义聚类实现去重的必要性。
  2. 人工筛选聚类的时候排除了哪些类型的聚类。
  3. 本文大比例地数据筛选,实验数据仅在BERT、T5小模型上实现,在更大模型上是否存在变化?

论文基本情况

  • 标题:The MiniPile Challenge for Data-Efficient Language Models

  • 标题中文翻译:面向数据高效语言模型的 MiniPile 挑战

  • 作者:Jean Kaddour

  • 发表时间:2023年4月17日

  • 发表地址:arXiv(预印本平台):2304.08442

  • 互联网能查到的资料:该论文提出了 MiniPile 数据集,旨在为研究数据高效语言模型提供一个多样化的文本语料库。它通过过滤和筛选从 The Pile 数据集中提取了 100 万篇文档,总大小为 6GB,并在 BERT 和 T5 模型上验证了其有效性

  • 摘要:随着预训练文本语料库的不断多样化,语言模型在各种下游任务中展现出了强大的泛化能力。然而,这些多样化的数据集通常规模庞大,超出了学术研究的预算范围,因此大多数关于 Transformer 架构、训练过程和优化器的研究都是在较小、同质化的数据集上进行的。为此,本文提出了 The MiniPile Challenge,即在最多包含 100 万篇文档的多样化文本语料库上预训练语言模型。MiniPile 是 The Pile 数据集的一个 6GB 子集(Pile语料库原本为825GB),通过简单的三步数据过滤过程生成:(1)推断所有文档的嵌入向量,(2)使用 k-means 对嵌入空间进行聚类,(3)过滤掉低质量的聚类。为了验证 MiniPile 作为语言模型预训练数据集的适用性,作者使用它分别预训练了 BERT 和 T5 模型,并在 GLUE 和 SNI 基准测试中取得了仅比在 2.6 倍和 745 倍数据量上训练的原始预训练检查点低 1.9% 和 2.5% 的性能。MiniPile 数据集可在 Hugging Face 上获取。

    • 结果说明预训练的语料有必要去重,本文做的去重是语义层面的去重。作者在BERT和T5模型上验证,可能难以说明作用,模型参数量太小,只可说明在小模型上同质化语料提升作用微小。

论文速读报告

《The MiniPile Challenge for Data-Efficient Language Models》

研究背景

随着预训练语言模型的发展,多样化的文本语料库对于提升模型的泛化能力至关重要。然而,大规模数据集(如 The Pile)的训练成本高昂,限制了大多数研究者只能使用小规模、同质化的数据集进行实验。这些小规模数据集往往无法代表现代通用语言模型的复杂性。为此,作者提出了 MiniPile Challenge,旨在通过一个小型但多样化的数据集,推动数据高效的语言模型预训练研究。

MiniPile 数据集

MiniPile 是从 The Pile 数据集中筛选出的 6GB 子集,包含最多 100 万篇文档。其生成过程包括以下三个步骤:

  1. 文档嵌入提取:使用 E5-Large 模型为 The Pile 中的所有文档生成嵌入向量。

  2. 聚类:通过 k-means 聚类算法将嵌入空间划分为 220 个聚类(每个子集分配 10 个聚类)。

    1. Kimi:在论文中提到的“子集”指的是 The Pile 数据集中的各个子数据集(sub-datasets)。The Pile 是一个由多个不同来源的文本数据集合而成的大型数据集,包含 22 个子数据集,这些子数据集涵盖了网页、对话、书籍、科学文献、代码等多种类型的文本。
    2. 这个聚类过程是指定每个子集10类,不是自动确定聚类数量的方法。
  3. 人工筛选:根据聚类中心的距离,人工筛选出低质量或有害的聚类(如色情内容、重复文档等),最终排除了 38 个聚类。

MiniPile 的统计信息如下:

  • 训练/验证/测试集规模:1M/500/10k
  • 压缩/未压缩空间需求:6GB/3GB
  • 词汇量:32309614;(0.03T)
  • 文档长度:中位数为 294,最长为 929633;(最长的文档有92万token?)

实验设计

作者使用 MiniPile 预训练了两种模型:BERT-Base 和 T5v1.1-Base,并在 GLUE 和 SNI 基准测试上进行了微调和评估。实验使用单个 NVIDIA RTX 3090 GPU 进行,BERT-Base 预训练耗时 54 小时,微调耗时 3 小时;T5v1.1-Base 预训练耗时 21 小时,微调耗时 2 小时。

  • BERT-Base 预训练:采用掩码语言建模(MLM)目标,使用 WordPiece 分词器和 Adam 优化器,训练步数为 800k。
  • T5v1.1-Base 预训练:采用原始的 span-corrupting MLM 目标,使用 SentencePiece 分词器和 AdamW 优化器,训练步数为 65536。

实验结果

实验结果显示,MiniPile 预训练的模型在 GLUE 和 SNI 基准测试上的性能仅比使用更大数据集训练的模型略低:

  • BERT-Base:在 GLUE 基准测试中,MiniPile 预训练的模型平均得分为 79.0,比使用更大数据集训练的模型低 1.9%。
  • T5v1.1-Base:在 SNI 基准测试中,MiniPile 预训练的模型得分为 38.47,比使用更大数据集训练的模型低 2.5%。

这些结果表明,MiniPile 是一个信息丰富且适合预训练的多样化数据集,能够在有限的数据量下实现接近大规模数据集的预训练效果。

研究意义

MiniPile 的提出为数据高效的语言模型预训练提供了一个实用的解决方案,尤其适合资源有限的研究者。此外,该数据集的多样性和质量控制也为未来的研究提供了可靠的基础,可以用于探索不同的架构、预训练方案和优化器。

未来工作

作者希望 MiniPile 能够加速数据高效语言模型的研究,例如探索结构不同的架构、预训练方案、优化器方案、差分隐私和机制可解释性等。

引言

……

修剪Pile数据

……

排除聚类

在论文中,作者详细列举了被排除的聚类类别及其示例文本,并解释了排除这些聚类的具体原因。以下是被排除的聚类类别及其原因的详细说明:

被排除的聚类类别及原因

  1. 近似重复文档(Near-duplicates)

    • 示例文本

      "check out our new site makeup addiction add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption sorry for low quality not sorry for downvote" "check out our new site makeup addiction add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption add your own caption want more upvotes? be more funny"

    • 排除原因:这些文档包含大量重复的内容,可能会导致模型学习到无意义的重复模式,从而降低模型的性能和泛化能力。

    • 这里是指文本本身包含大量重复内容,复读机。

  2. 色情内容(Pornography)

    • 示例文本
      fuck anal movie adult swinger party melbourne nifty erotics icarly tighter the first inch or so, loosens up beyond that point. actually feels just very slightly warmer. big beautiful ebony keisha grey takes an anal p busty natasha nice gets ass indian teen gangbang publisher [...]
    • 排除原因:色情内容可能包含性别歧视、种族刻板印象等有害信息,这些内容对模型的训练是不利的,并且可能引发伦理问题。
  3. 网页导航栏(Navigation Bars)

    • 示例文本
      search open menu close menu pc mobile windows mac linux android iphone and ipad internet security programming lifestyle technology news entertainment productivity creative gaming social media hardware technology explained buying guides smart home diy product reviews free ebooks giveaways top lists about about makeuseof newsletter advertise privacy jobs chats facebook facebook facebook facebook search for :. jump tosections of this pageaccessibility helppress alt + / to open this menuremoveto [...]
    • 排除原因:网页导航栏通常包含大量无关紧要的信息,这些信息对于语言模型的训练没有实质性帮助,反而可能增加噪声。
  4. 产品规格(Product Specifications)

    • 示例文本
      related products super light, starting at just 3.0 lbsultra thin - just 14.5mm at its thinnestpremium processing to help you multitaskinnovative rotating sound bar for sound you can feelbrighter display with 4k clarity & imporoved hinge technology read more the thinkpad a285 is a powerful 12.5 - inch enterprise laptop that has everything you need to get the job done. the latest amd ryzen... 2122 pro processing and radeon 2122 vega graphics make multitasking a cinch. biometric and encryption security protect critical... read more asus x540sa 15.6 [...]
    • 排除原因产品规格通常包含大量技术细节和参数,这些内容对于语言模型的泛化能力提升帮助不大,且可能引入复杂的长尾知识,对模型的训练构成挑战。
    • 质疑:但是这些技术细节和参数确实包含着知识,对于小模型可能需要的是掌握语言泛化能力,对大模型可能需要嵌入更多知识(世界知识)。当然,这部分内容作为RAG的知识库可能更好。
  5. 长名单(Long Lists of Named Entities)

    • 示例文本
      tag : blogger.com, 1999 : blog - 6954607999061779677thu, 26 apr 2018 09 : 41 : 52 + 0000mp3videoindieeminemnewstop 10unknown artistsdarius ruckerlinkin parkradioac / dcb. o. b hayley williamsbeyonceblack eyed peasbruce driscollbruno marschitlinscolette carrdutch tha kiddakota fanning kristen stewarteaston corbinedward mayaflorida david guettafugazigeorge michaelgeorgie jamesguns n’roseshot chelle raeivan howardjosh turnerjustin bieberkenny chesneykeshakid cudile louplil [...]
    • 排除原因:长名单通常包含大量实体名称,这些内容对于语言模型的训练意义不大,且可能引入复杂的长尾知识,对模型的训练构成挑战。

总结

作者通过人工标注和筛选,共排除了 38 个聚类。这些聚类被排除的原因主要是为了避免模型学习到重复、有害或低质量的内容,从而提高 MiniPile 数据集的整体质量和多样性。

posted on 2025-05-21 15:52  马儿慢些走  阅读(54)  评论(0)    收藏  举报

导航