大模型理论基础打卡04

第5章 大模型的数据

大型语言模型背后的数据:

  1. 数据来源和广度: 大型语言模型是在原始文本上进行训练的,要求这些文本覆盖广泛的领域、类型和语言。网络是主要的文本来源,而谷歌搜索索引等网络数据庞大。

  2. 数据规模: 网络体积巨大,例如,谷歌搜索索引就有100PB。大公司的私有数据集甚至更大,比如沃尔玛每小时产生2.5PB的数据。

  3. Common Crawl作为数据源: Common Crawl是一个非营利组织,通过爬取网络提供免费的快照。它成为许多模型的标准数据源,如T5、GPT-3和Gopher。

  4. 数据的代表性不均衡: 尽管网络数据丰富,但研究指出全球人口中的大规模数据代表性不均衡,过多代表了来自发达国家的年轻用户。

  5. 性别和年龄的偏向: 以GPT-2为例,其训练数据基于Reddit,而Reddit用户中有67%是男性,64%的年龄在18到29岁之间。维基百科的编辑中只有8.8-15%是女性。

  6. 骚扰和排斥感: 网络上的骚扰可能导致某些人群(如跨性别者、神经发育不同的人)感到排斥。过滤不良词汇可能进一步边缘化某些人群,如LGBT+。

  7. 结论: 由于这些问题,理解和记录用于训练大型语言模型的数据集的组成至关重要。

WebText和OpenWebText数据集

WebText数据集的使用和构建,以及与OpenWebText数据集的关系:

  1. WebText数据集的用途: WebText数据集被用于训练GPT-2模型,旨在获取多样化且高质量的数据。相比于以前的训练数据集(如新闻、维基百科或小说),Common Crawl包含大量垃圾信息,因此Trinh和Le在2018年选择了Common Crawl的一小部分,创建了WebText。

  2. WebText的构建过程: 创建WebText的过程包括抓取至少获得3个赞的所有外链,过滤掉维基百科以进行基准测试评估,最终得到40GB的文本。

  3. OpenWebText数据集的出现: 尽管OpenAI没有公开发布WebText数据集,但出现了OpenWebText数据集,其构建方法理念上复制了WebText。OpenWebText并非WebText的副本,但遵循了WebText的制作思路和方法,目的是模拟和复现WebText的数据特性和结构。

  4. OpenWebText构建过程: OpenWebText从Reddit提交的数据集中提取所有URL,使用fastText过滤掉非英语内容,删除近乎重复的内容,最终得到38GB的文本。

  5. 毒性分析: 在2020年的RealToxicityPrompts研究中,对OpenWebText和WebText进行了毒性分析。结果显示OpenWebText中2.1%的内容毒性得分>=50%,而WebText有4.3%的内容毒性得分>=50%。新闻的可靠性与毒性负相关,OpenWebText中有3%的内容来自被禁止或被隔离的subreddits,如/r/The_Donald和/r/WhiteRights。

C4语料库:

  1. C4语料库的用途: C4语料库被用来训练T5模型,起始于2019年4月的Common Crawl快照,包含1.4万亿个标记。在处理过程中,移除了“bad words”和代码(“{”),通过langdetect过滤掉了非英语文本,最终得到了806GB的文本,相当于1560亿个标记。

  2. Dodge等人的分析: 2021年,Dodge等人对C4数据集进行了深入分析,涉及元数据、包含的数据和排除的数据。

    • 元数据: 分析包括数据的来源和话语数据。

    • 包含的数据: 分析了由机器或人类创作的数据,社会偏见以及数据污染。

    • 排除的数据: 涉及排除医疗或健康数据以及人口身份数据。

  3. Raffel等人的研究和数据来源: 在2020年的研究中,Raffel等人提供了重建脚本,但运行这些脚本需要数千美元。数据来源令人惊讶地包括大量来自patents.google.com,其中65%的互联网档案页面被纳入,92%的页面在过去十年内编写。尽管51.3%的页面来自美国,但来自印度的页面数量相对较少,尽管那里有大量的英语使用者。

  4. 问题和注意事项: 从patents.google.com获取的一些文本是自动生成的,可能存在系统性的错误,例如,用外国的官方语言(如日语)提交的专利将自动翻译成英语。另一些文本是由光学字符识别(OCR)自动生成的。

Benchmark的数据污染:

这段中文总结讨论了在评估大型语言模型时可能遇到的问题,特别是与基准数据和训练数据的关系以及数据集本身可能引发的问题。以下是对每个部分的简要概述:

  1. 基准数据的问题: 在评估大型语言模型的能力时,通常使用基准数据,如问题-答案对。然而,如果基准数据在模型的训练数据中出现过,基准性能可能会受到偏差影响。对于大型语言模型,保证训练数据和测试数据的完全分离相对较困难。

  2. XSum摘要数据集的例子: XSum摘要数据集存在两种类型的污染,即输入和输出都出现在训练数据中(1.87%-24.88%之间的比例),以及只有输入在训练数据中出现(1.8%-53.6%之间的比例)。这种数据污染难以避免,因为数据集通常以JSON文件形式存储而不是网页。

  3. 数据污染不是托管方式导致的: 数据污染并非由于数据集的托管方式导致,因为数据集通常以JSON文件形式存储,而不是网页。这种数据污染可以看作是一种自身难以避免的特性。

  4. 数据集可能引发的问题: 数据集可能导致多种问题,包括代表性损害,例如,特定族群相关的词汇与积极情绪词汇的共现频率存在差异,可能反映了模型的偏见。数据集的选择和过滤也可能导致分配损害,例如,某些内容更容易被过滤,而这部分内容可能并无冒犯之意,导致偏见。

GPT3训练数据:

GPT-3的数据集主要来自Common Crawl,类似于WebText。通过下载41个Common Crawl数据分片(2016-2019年),GPT-3采用了二元分类器来预测WebText与Common Crawl的区别,并采用模糊去重方法处理数据。此外,GPT-3扩大了数据来源的多样性,包括WebText2、Books1、Books2和维基百科。在训练中,Common Crawl被降采样,占82%但仅贡献60%的数据。然而,GPT-3也启示我们寻找更高质量的数据来源,如EleutherAI的The Pile,它通过从较小的高质量数据源获取数据,推动了这一思想。

The Pile数据集

The Pile数据集包含了825GB的英文文本,由22个高质量数据集组成。当用这个数据集训练GPT-2Pile(1.5B参数)并与用GPT-3数据集训练的GPT-3(175B参数)进行比较时,研究者们发现,The Pile包含了大量GPT-3数据集未能很好覆盖的信息。他们还分析了贬损内容、性别/宗教偏见等问题,结果与以前的研究大致相同。

posted @ 2024-01-22 00:01  wuhaoliu  阅读(48)  评论(0)    收藏  举报  来源