A Survey on Data Selection for Language Models

Data Selection for Pretraining

FinGPT: Large Generative Models for a Small Language →EMNLP 2023

Risto Luukkonen, Ville Komulainen, Jouni Luoma, Anni Eskelinen, Jenna Kanerva, Hanna-Mari Kupari, Filip Ginter, Veronika Laippala, Niklas Muennighoff, Aleksandra Piktus, Thomas Wang, Nouamane Tazi, Teven Le Scao, Thomas Wolf, Osma Suominen, Samuli Sairanen, Mikko Merioksa, Jyrki Heinonen, Aija Vahtola, Samuel Antao, Sampo Pyysalo

背景：大语言模型（LLMs）在 NLP 等领域表现出色，但开源模型对小语种覆盖有限，研究多聚焦于有海量预训练数据的语言。
研究对象：针对全球使用者不足 0.1% 的芬兰语，探索构建 LLMs 的挑战。
数据与模型：
- 整合网页爬取、新闻、社交媒体和电子书等数据，形成大规模芬兰语数据集。
- 两种预训练方式：①从头训练 7 个单语模型（1.86 亿至 130 亿参数），命名为 FinGPT；②在多语言模型 BLOOM 基础上，结合其原始训练数据与芬兰语继续预训练，得到 1760 亿参数的 BLUUMI。
评估：推出芬兰语版 BIG-bench（FIN-bench）用于模型评估，同时评估毒性、偏见等其他特质。
成果：相关模型和工具已公开，可通过指定 URL 获取

MC2: Towards Transparent and Culturally-Aware NLP for Minority Languages in China →ACL 2024

Chen Zhang, Mingxu Tao, Quzhe Huang, Jiuheng Lin, Zhibin Chen, Yansong Feng

现状：当前大型语言模型在理解低资源语言（尤其是中国少数民族语言）方面存在不足，原因是预训练数据稀缺。
解决方案：提出中国少数民族语言多语种语料库 MC²，这是目前同类最大的开源语料库。
包含语言：涵盖藏语、维吾尔语、哈萨克语、蒙古语四种代表性不足的语言，其中重点关注哈萨克语阿拉伯文和传统蒙古文这两种此前被忽视的书写系统。
构建原则：鉴于现有语料库存在语言污染问题，MC² 以质量为中心，在保证准确性的同时提升多样性，并强调关注多种书写系统对模型文化意识的重要性。
公开情况：MC² 语料库及相关模型已向社区公开。

MADLAD-400: A Multilingual And Document-Level Large Audited Dataset →NIPS 2023

Sneha Kudugunta, Isaac Caswell, Biao Zhang, Xavier Garcia, Christopher A. Choquette-Choo, Katherine Lee, Derrick Xin, Aditya Kusupati, Romi Stella, Ankur Bapna, Orhan Firat

介绍 MADLAD-400：这是一个基于 CommonCrawl、经人工审核的通用领域单语数据集，含 3T tokens，覆盖 419 种语言。
相关讨论：涉及该数据集自我审核中发现的局限性，以及数据审核在数据集创建过程中的作用。
模型训练与成果：
- 利用公开数据训练并发布了一个 10.7B 参数的多语言机器翻译模型，其在 2500 亿 tokens（覆盖 450 多种语言）上训练，性能可与规模大得多的模型抗衡，并报告了不同领域的结果。
- 训练了一个 8B 参数的语言模型，评估了其在少样本翻译任务上的表现。
资源共享：将基准模型向研究界公开。

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only →NIPS 2023

Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay

大型语言模型通常基于过滤后的网络数据与精选高质量语料（如社交媒体对话、书籍、技术论文）混合训练，这种精选过程被认为对模型性能和零样本泛化能力很重要。
但随着需万亿级 tokens 预训练的更大模型出现，精选过程的可扩展性及高质量数据是否即将耗尽存疑。
研究表明，仅经适当过滤和去重的网络数据就能训练出强大模型，甚至显著优于基于 The Pile 训练的最先进模型。
经大量过滤后，从网络提取的高质量数据仍很丰富，研究者从 CommonCrawl 获得了 5 万亿 tokens。
公开发布了 RefinedWeb 数据集中 6000 亿 tokens 的提取部分，以及基于该数据训练的 1.3B/7.5B 参数语言模型。

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research→ACL 2024

Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo

现状：当前顶尖语言模型的预训练语料信息披露极少（商业模型不详细说明，开源模型常无训练数据或复现方法），阻碍了关于训练数据如何影响模型能力与局限等科学研究。
举措：为推动语言模型预训练研究，团队整理并发布了含 3 万亿词的英语语料库 Dolma，其涵盖网页内容、科学论文、代码、公共领域书籍、社交媒体及百科资料等多种类型。
补充：对 Dolma 进行了详尽记录（含设计原则、构建细节、内容总结），展示了其中间状态的分析与实验结果以分享数据整理经验，并开源数据整理工具包以支持复现及大规模数据整理研究。

LLaMA: Open and Efficient Foundation Language Models→2023

Hugo Touvron , Thibaut Lavril , Gautier Izacard , Xavier Martinet , Marie-Anne Lachaux , Timothée Lacroix , Baptiste Rozière , Naman Goyal , Eric Hambro , Faisal Azhar , Aurelien Rodriguez , Armand Joulin , Edouard Grave , Guillaume Lample

介绍了 LLaMA 基础语言模型集合，参数规模从 70 亿到 650 亿不等。
该模型在数万亿个 token 上训练而成，且仅使用公开可用数据集，无需依赖专有或难以获取的数据集，就能达到最先进水平。
具体而言，130 亿参数的 LLaMA 在多数基准测试中优于 1750 亿参数的 GPT-3，650 亿参数的 LLaMA 与 700 亿参数的 Chinchilla、5400 亿参数的 PaLM 等顶尖模型具有竞争力。
所有模型已向研究界开放。

The Foundation Model Transparency Index →CRFM 2023

Rishi Bommasani, Kevin Klyman, Shayne Longpre, Sayash Kapoor, Nestor Maslej, Betty Xiong, Daniel Zhang, Percy Liang

背景：基础模型快速渗透社会，催生大量生成式 AI 应用，但透明度却在下降，与社交媒体等过往数字技术的不透明问题类似，而透明度是公共问责、科学创新和有效治理的关键前提。
举措：引入 “基础模型透明度指数”，该指数包含 100 项细化指标，全面涵盖基础模型构建的上游资源（如数据、人力、算力）、模型本身细节（如规模、能力、风险）及下游应用（如分销渠道、使用政策、影响地区）；基于这些指标对 10 家主要基础模型开发者（如 OpenAI、谷歌、Meta）的旗舰模型进行评分。
发现：例如，目前没有开发者披露其旗舰模型的下游影响相关重要信息（如用户数量、受影响市场领域、用户如何就伤害寻求补救）。
意义：该指数确定了当前的透明度水平，旨在通过行业标准和监管干预推动基础模型治理的进展。

A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity → NAACL 2023

Shayne Longpre, Gregory Yauney, Emily Reif, Katherine Lee, Adam Roberts, Barret Zoph, Denny Zhou, Jason Wei, Kevin Robinson, David Mimno, Daphne Ippolito

该研究围绕语言模型预训练数据设计展开，通过对 28 个 1.5B 参数的仅解码器模型进行预训练实验（变量涉及数据时间、毒性与质量过滤、领域构成），得出以下关键结论：

预训练数据时效性影响显著：评估数据与预训练数据的时间差异会导致性能下降，且微调无法弥补。
质量和毒性过滤存在权衡：标准基准性能与毒性生成风险此消彼长，不存在通用的过滤方案，且过滤效果无法从文本领域特征预测。
异质数据源有益：纳入书籍、网络等多样化数据广泛有益，应得到更多重视。

这些发现为语言模型开发中以数据为中心的决策提供了依据，是目前验证、量化预训练数据相关未被充分记录的直觉的最大规模实验。

Data Selection for Language Models via Importance Resampling → NeurIPS 2023

Sang Michael Xie, Shibani Santurkar, Tengyu Ma, Percy Liang

问题背景：选择合适的预训练数据集对通用域和特定域语言模型都至关重要，该问题可形式化为从大型原始无标签数据集中选取子集以匹配目标分布，但现有方法存在局限。
提出方法：扩展低维重要性重采样方法，提出数据选择与重要性重采样（DSIR）框架，在简化特征空间估计重要性权重并据此选择数据，结合哈希 n-gram 特征提升效率，能在 4.5 小时内从完整 Pile 数据集中选取 1 亿份文档。
评估指标：定义 KL 缩减指标，衡量所选预训练数据与目标在特征空间的接近度，其在哈希 n-gram 特征上与平均下游准确率高度相关（r=0.82）。
实验结果：在特定域持续预训练中，DSIR 与专家筛选效果相当；在通用域模型预训练中，相较随机选择和启发式过滤基线，在 GLUE 基准上提升 2 - 2.5%。

Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale → 2024

Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu

传统大语言模型预训练依赖人类专家设计启发式规则提升语料质量，但规则缺乏灵活性，且为每个样本定制规则不现实。
研究表明，仅 0.3B 参数的小模型也能具备媲美人类专家的数据精炼能力，并提出 ProX 框架，将数据精炼视为编程任务，让模型通过生成和执行细粒度操作（如字符串标准化）大规模精炼每个样本。
实验显示，基于 ProX 处理数据预训练的模型，在多种下游基准测试中，性能比原始数据或其他筛选方法处理的数据预训练的模型高出 2% 以上，且在不同模型规模和预训练语料（如 C4、RedPajama-V2 等）上均有效。
在特定领域持续预训练中，ProX 潜力显著：无需领域特定设计，基于 ProX 处理的 OpenWebMath 训练的模型，性能超过人类设计的基于规则的方法，Mistral-7B 平均准确率提升 7.6%，Llama-2-7B 提升 14.6%，CodeLlama-7B 提升 20.3%，且仅用 10B tokens，就能媲美使用 200B tokens 训练的 Llemma-7B 等模型。
进一步分析表明，ProX 大幅节省训练 FLOPs，为高效大语言模型预训练提供新路径。
已开源 ProX，包含超 500B 语料、模型，并分享所有训练和实现细节，代码见https://github.com/GAIR-NLP/ProX。

DsDm: Model-Aware Dataset Selection with Datamodels → ICML 2024

Logan Engstrom, Axel Feldmann, Aleksander Madry

现状：训练大规模模型时，按人类对数据质量的认知筛选数据，本应提升模型表现，但实际可能无效甚至起反作用，依据与 “高质量” 数据源的相似度筛选数据的效果未必优于随机选数据。
新方法：将数据集选择视为可直接求解的优化问题，避开人工设定的数据质量标准，明确建模学习过程如何利用训练数据预测目标任务。
效果：该方法显著提升语言模型在预设任务和未见任务上的表现，所选数据集相比基线方法能实现 2 倍计算效率提升。

C-Pack: Packed Resources For General Chinese Embeddings → SIGIR 2024

Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, Jian-Yun Nie

本文介绍了 C-Pack，这是一套显著推动中文通用嵌入领域发展的资源，包含三部分核心内容：

C-MTEB：涵盖 6 项任务、35 个数据集的中文文本嵌入综合基准。
C-MTP：从带标签和无标签中文语料库中精选的大规模文本嵌入训练数据集。
C-TEM：包含多种规模的嵌入模型家族，发布时在 C-MTEB 上的表现超越所有先前的中文文本嵌入模型，提升幅度最高达 10%，且其整套训练方法经过整合与优化。

此外，还发布了用于英文文本嵌入的数据和模型：英文模型在 MTEB 基准上实现了最先进的性能，同时发布的英文数据量是中文数据的 2 倍。所有资源均可通过指定网址公开获取。https://github.com/FlagOpen/FlagEmbedding

D4: Improving LLM Pretraining via Document De-Duplication and Diversification → NIPS 2023

Kushal Tirumala, Daniel Simig, Armen Aghajanyan, Ari S. Morcos

背景：近年来，大语言模型（LLMs）训练多依赖大规模网络语料的随机单遍学习，虽数据量增加能提升性能，但提升幅度随规模递减，且除 MinHash 等简单去重外，数据选择对预训练及下游性能的影响研究较少。
研究发现：在去重数据基础上，通过预训练模型嵌入进行谨慎的数据选择，在 6.7B 模型规模下，可加快训练（效率提升 20%），并提高 16 项 NLP 任务的平均下游准确率（最高 2%）。
补充结果：智能重复数据的表现始终优于基线训练，而随机重复数据则差于基线训练。
结论：巧妙的数据选择能显著改进 LLM 预训练，对 “尽可能多的数据单轮训练” 这一常见做法提出质疑，并为突破随机采样网络数据的限制、持续改进模型提供了路径。

Large-scale Near-deduplication Behind BigCode → 2023

Chenghao Mou

目标受众：对大规模文档级近重复数据删除感兴趣，且了解哈希、图和文本处理的人群。
研究动机：
- 数据质量重要，“输入垃圾，输出垃圾”，重复数据会导致模型逐字输出训练数据、易受隐私攻击。
- 去重有诸多好处：提升训练效率、防止数据泄露和基准污染、便于数据研究、传输与协作。
从 BigScience 到 BigCode 的实践：
- 作者参与 BigScience 的去重工作，后将经验应用于 BigCode，处理更大数据集，证实去重对代码模型也有效。
- 给出多个数据集（如 OpenWebText2、Pile-CC 等）的去重方法、参数、语言及时间等信息，以及代码数据集的去重相关内容。
MinHash 流程：
- 包括分片（分词）和指纹计算（MinHashing），将文档映射为哈希集； locality-sensitive hashing（LSH），减少比较次数；重复数据删除，决定保留或移除重复文档。
- 介绍了指纹计算的代码实现和并行化方式，以及 LSH 中候选对的生成。
重复对之外的处理：
- 可通过计算实际 Jaccard 相似度验证，或直接视为真阳性。
- 基于重复对构建图，介绍了三种聚类实现方式，其中 Spark 对大型数据集更有效。
质量与扩展性：
- 近重复数据删除能提升模型下游性能，更激进的去重（降低相似性阈值、增大分片大小等）效果更好，5-gram 比 unigram 的假阳性率低。
- 在固定计算预算下，去重时间与数据集物理大小大致呈线性关系。
注意事项：去重不能替代全面的数据探索分析，其适用性因数据集和语言而异，还需注意数据泄露和基准污染问题。
未来方向：
- 包括子串去重、检测文档内重复段落、利用模型嵌入进行语义去重、优化去重相关方面。
- 探讨近重复数据删除何时损害性能、相似度在多样性与冗余性中的权衡等问题。

Paloma: A Benchmark for Evaluating Language Model Fit → NeurIPS 2024

Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge

现状：语言模型（LM）评估通常仅报告单一训练外数据的困惑度，而该数据实际由不同语言分布的领域构成。
新基准：推出 Paloma（语言模型评估困惑度分析），用于衡量 LM 对 546 个英语和代码领域的适配性，打破单一分布困惑度可推广的假设。
新数据集：包含两个新数据集，分别来自排名前 100 的 Reddit 子版块（如 r/depression）和编程语言（如 GitHub 上的 Java），均为当代 LM 常用数据来源。
配套资源：发布 6 个 1B 参数的基线 LM，其训练经过严格控制，可公平比较哪种预训练语料最佳，并提供代码供他人在实验中应用这些控制。
案例发现：通过 Paloma 的细粒度结果发现，仅用 Common Crawl 以外数据预训练的模型在许多领域适配性存在异常差距，且损失主要由词汇中最常出现的字符串主导。

Quantifying Memorization Across Neural Language Models → ICLR 2023

Nicholas Carlini Daphne Ippolito, Matthew Jagielski, Katherine Lee, Florian Tramer, Chiyuan Zhang

大语言模型（LMs）会记忆训练数据并在特定提示下逐字输出，这存在隐私泄露、降低实用性、损害公平性等问题。
研究发现记忆程度与三个因素成对数线性关系：模型容量增加、训练样本重复次数增多、提示上下文的 token 数量增加，记忆会显著增强。
跨模型家族推广结果时情况复杂，但总体而言，LMs 的记忆现象比之前认为的更普遍，且若不采取积极缓解措施，随着模型规模扩大可能会更严重。

SemDeDup: Data-efficient learning at web-scale through semantic deduplication → ICLR 2023

Amro Abbas, Kushal Tirumala, Dániel Simig, Surya Ganguli, Ari S. Morcos

机器学习的进步很大程度上得益于数据量的大幅增加，但像 LAION 这样的大规模网络数据集，除了搜索完全重复项外基本未经整理，存在大量冗余。
为此，研究人员提出 SemDeDup 方法，该方法利用预训练模型的嵌入来识别和移除语义重复项（语义相似但不完全相同的数据对）。
移除语义重复项可保留模型性能并加快学习速度：对 LAION 子集分析显示，其能移除 50% 数据且性能损失极小，训练时间减半，分布外性能还会提升；在部分整理的 C4 数据集上训练语言模型时，SemDeDup 优于现有方法且效率更高。
这表明，利用高质量嵌入的简单方法可让模型用更少数据更快学习。

What's In My Big Data? → ICLR 2024

Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge

背景：大型文本语料库是语言模型的基础，但人们对其内容（如统计数据、质量、社会因素、评估数据污染等）了解有限。
提出方案：研发了 “What's In My Big Data?（WIMBD）” 平台及 16 项分析，基于大规模计数和搜索能力，可在标准计算节点上分析超 35TB 数据。
应用与发现：将 WIMBD 应用于 10 个训练热门语言模型的语料库（如 C4、The Pile、RedPajama），发现诸多此前未被记录的问题，包括重复、合成及低质量内容占比高，含个人身份信息、有毒语言，存在基准测试污染（如 RedPajama 和 LAION-2B-en 约 50% 文档重复，部分数据集污染 Winograd Schema Challenge 及 GLUE、SuperGLUE 部分内容）。
开源举措：开源 WIMBD 代码及成果，为新文本语料库提供标准评估，促进更多分析及透明度提升

Generative Representational Instruction Tuning → ICLR 2024

Niklas Muennighoff, Hongjin Su, Liang Wang, Nan Yang, Furu Wei, Tao Yu, Amanpreet Singh, Douwe Kiela

所有基于文本的语言问题可归结为生成或嵌入任务，现有模型通常仅擅长其一。
提出生成表征指令微调（GRIT），训练大语言模型通过指令区分并处理两类任务。
成果 GritLM 7B 在大规模文本嵌入基准（MTEB）上创最佳表现，且在一系列生成任务上优于同规模模型；GritLM 8x7B 超越所有测试过的开源生成模型，同时仍是顶尖嵌入模型之一。
GRIT 在性能不损失的情况下，可统一生成与嵌入任务的训练。
其优势包括：将长文档的检索增强生成（RAG）速度提升超 60%，无需再使用单独的检索和生成模型。
模型、代码等可在指定网址免费获取。https://github.com/ContextualAI/gritlm

AI image training dataset found to include child sexual abuse imagery → 2023

Emilia David

核心发现：斯坦福互联网天文台发现，AI 图像生成常用训练数据集 LAION-5B 包含至少 1679 个非法儿童虐待图像链接，这些图像来自社交媒体帖子和成人网站，经 PhotoDNA 等平台检测及加拿大儿童保护中心核实。
相关背景：
- LAION-5B 由非营利组织 LAION 管理，本身不存储图像，仅索引互联网上的图像链接和替代文本。
- 稳定扩散（Stable Diffusion）的创建者 Stability AI 曾使用该数据集训练模型，其称仅聚焦部分数据并进行安全微调。
- 谷歌早期研究版 Imagen 模型基于 LAION 的旧版本 LAION-400M 训练，该版本含色情图像、种族歧视言论等不当内容，后续版本未再使用 LAION 数据集。
影响与担忧：
- 研究指出，儿童性虐待材料（CSAM）的存在虽未必影响模型输出，但存在模型从中学习的可能性，且重复出现的 CSAM 会强化特定受害者图像，问题显著。
- 彻底清除问题内容难度大，尤其已训练的 AI 模型中。
各方回应与建议：
- LAION 称对有害内容零容忍，已暂时移除线上数据集；Stability AI 有反滥用准则。
- 研究人员建议停用基于 LAION-5B 训练的模型（如 Stable Diffusion 1.5）。
- 美国司法部长呼吁国会成立委员会调查 AI 对儿童剥削的影响，禁止生成 AI 制作的 CSAM。
更正说明：谷歌初代 Imagen 基于 LAION-400M 而非 5B 训练，LAION-400M 含多种不当内容，此前报道有误。

GPT-4 Technical Report → 2023

OpenAI, Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, Red Avila, Igor Babuschkin, Suchir Balaji, Valerie Balcom, Paul Baltescu, Haiming Bao, Mohammad Bavarian, Jeff Belgum, Irwan Bello, Jake Berdine, Gabriel Bernadett-Shapiro, Christopher Berner, Lenny Bogdonoff, Oleg Boiko, Madelaine Boyd, Anna-Luisa Brakman, Greg Brockman, Tim Brooks, Miles Brundage, Kevin Button, Trevor Cai, Rosie Campbell, Andrew Cann, Brittany Carey, Chelsea Carlson, Rory Carmichael, Brooke Chan, Che Chang, Fotis Chantzis, Derek Chen, Sully Chen, Ruby Chen, Jason Chen, Mark Chen, Ben Chess, Chester Cho, Casey Chu, Hyung Won Chung, Dave Cummings, Jeremiah Currier, Yunxing Dai, Cory Decareaux, Thomas Degry, Noah Deutsch, Damien Deville, Arka Dhar, David Dohan, Steve Dowling, Sheila Dunning, Adrien Ecoffet, Atty Eleti, Tyna Eloundou, David Farhi, Liam Fedus, Niko Felix, Simón Posada Fishman, Juston Forte, Isabella Fulford, Leo Gao, Elie Georges, Christian Gibson, Vik Goel, Tarun Gogineni, Gabriel Goh, Rapha Gontijo-Lopes, Jonathan Gordon, Morgan Grafstein, Scott Gray, Ryan Greene, Joshua Gross, Shixiang Shane Gu, Yufei Guo, Chris Hallacy, Jesse Han, Jeff Harris, Yuchen He, Mike Heaton, Johannes Heidecke, Chris Hesse, Alan Hickey, Wade Hickey, Peter Hoeschele, Brandon Houghton, Kenny Hsu, Shengli Hu, Xin Hu, Joost Huizinga, Shantanu Jain, Shawn Jain et al. (181 additional authors not shown)

本文介绍了 GPT-4 的研发情况，它是一款大型多模态模型，可接收图像和文本输入并生成文本输出。
尽管在诸多现实场景中能力不及人类，但 GPT-4 在多种专业和学术基准测试中表现出人类水平，例如在模拟律师资格考试中得分处于考生前 10% 左右。
GPT-4 基于 Transformer 架构，通过预训练预测文档中的下一个 token，经训练后对齐处理，在真实性和符合预期行为方面表现更优。
该项目的核心是开发了能在多种规模下稳定运行的基础设施和优化方法，这使其能基于计算量不超过 GPT-4 千分之一的模型，准确预测 GPT-4 的部分性能。

Detecting Personal Information in Training Corpora: an Analysis → TrustNLP 2023

Nishant Subramani, Sasha Luccioni, Jesse Dodge, Margaret Mitchell

该研究聚焦于大型语言模型训练数据中的个人信息（PI）问题，要点如下：

大型语言模型训练依赖大量从网络抓取的非结构化文本，但其中个人信息的研究相对不足。
研究借鉴多国对个人信息的定义，首次构建了按类型和风险等级分类的个人信息分类体系。
以 C4 和 Pile 语料库为案例，检测高风险个人信息（如电子邮件、信用卡号），并对比自动检测与基于正则表达式的检测方法。
指出当前个人信息检测方法的不足，提出结合全球视角和检测目标的问题重构思路。

SantaCoder: don't reach for the stars! → ICLR 2023

Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo García del Río, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra

项目背景：BigCode 项目是一项开放科学合作项目，致力于负责任地开发大型代码语言模型。
报告内容：该技术报告介绍了截至 2022 年 12 月的合作进展，包括个人可识别信息（PII）编辑流程现状、降低模型架构风险的实验，以及探索更好训练数据预处理方法的实验。
模型训练与评估：基于 The Stack 的 Java、JavaScript 和 Python 子集训练了 11 亿参数模型，并在 MultiPL-E 文本到代码基准上进行评估。
关键发现：
- 更激进的近重复内容过滤能进一步提升性能。
- 从拥有 5+ GitHub 星标的仓库中选择文件会显著降低性能。
模型表现：尽管规模小得多，但其最佳模型在 MultiPL-E 的 Java、JavaScript 和 Python 部分的从左到右生成及填充任务中，表现优于此前的开源多语言代码生成模型（InCoder-6.7B 和 CodeGen-Multi-2.7B）。
模型发布：所有模型均根据 OpenRAIL 许可在指定网址发布。https://huggingface.co/bigcode

OLMo: Accelerating the Science of Language Models →ACL 2024

Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi

语言模型（LMs）在自然语言处理研究和商业产品中应用广泛，但最强大的模型因商业重要性提升而封闭，其训练数据、架构等关键细节未公开。
这些细节对研究模型的偏差和潜在风险至关重要，因此研究界需要能获取强大且真正开放的语言模型。
为此，研究人员构建了具有竞争力的真正开放语言模型 OLMo，与以往仅发布模型权重和推理代码不同，OLMo 还公开了训练数据、训练及评估代码。
希望此次发布能助力开放研究社区，激发创新浪潮。

Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning → ACL 2024

Shivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, Sara Hooker

数据集是现代 AI 突破的基础，NLP 领域近期成果多源于预训练模型在多样化任务上的微调，而指令微调（IFT）需特定构建和标注的数据集，但现有数据集几乎均为英语。
本研究旨在弥合语言差距：构建了涵盖 65 种语言、由人类精心策划的指令遵循数据集，联合全球多语言流利者收集自然的指令及完成示例；通过模板化和翻译现有数据集，创建了迄今最广泛的多语言集合，含 5.13 亿个实例，覆盖 114 种语言。
贡献了四大关键资源：开源 Aya 标注平台、Aya 数据集、Aya 集合及 Aya 评估套件。
Aya 计划是参与式研究的宝贵案例，涉及 119 个国家的合作者，为未来旨在弥合资源差距的研究合作提供了有价值的框架。

Cross-Lingual Supervision improves Large Language Models Pre-training → 2023

Andrea Schioppa, Xavier Garcia, Orhan Firat

大型语言模型（LLM）预训练多依赖自监督语言建模目标（如下一 token 预测、跨度损坏），而机器翻译系统多依赖需语言对齐数据的跨语言监督。
研究表明，在预训练中混合自监督语言建模目标与有监督机器翻译目标（即纳入跨语言平行数据），能提升模型的上下文学习能力。
由于预训练资源密集，难以通过网格搜索确定两目标的最佳混合比例，因此提出一种在预训练中学习该比例的简单有效策略。

Efficient Online Data Mixing For Language Model Pre-Training → NeurIPS 2023

Alon Albalak, Liangming Pan, Colin Raffel, William Yang Wang

预训练数据对大语言模型下游性能影响重大，因此相关数据选择方法研究较多，但现有方法存在速度慢、计算成本高的问题，且随着模型和预训练数据集规模扩大，该问题加剧。
数据混合通过将数据点分组并确定跨组采样概率降低选择复杂度，但其混合比例通常在训练前固定，无法适应训练动态变化。
为解决上述局限，研究人员开发了在线数据混合（ODM）高效算法，结合数据选择和数据混合元素，基于多臂老hu机算法在训练中优化数据混合比例。
该方法成效显著：模型达到次优方法的最终困惑度所需训练迭代次数少 19%，在 5-shot MMLU 基准测试中的相对准确率提高 1.9%，且预训练期间增加的实际时间可忽略不计。

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling →ICML 2023

Stella Biderman, Hailey Schoelkopf, Quentin Gregory Anthony, Herbie Bradley, Kyle O’Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, Usvsn Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar Van Der Wal

Pythia 是 EleutherAI 推出的大型语言模型套件，旨在探究大型语言模型（LLMs）在训练过程中的发展演变及随规模变化的模式，主要内容如下：

模型套件构成：包含 16 个 LLMs，参数规模从 7000 万到 120 亿不等，均在相同公开数据、相同顺序下训练，每个模型提供 154 个检查点。
研究支持：提供下载和重建精确训练数据加载器的工具，助力记忆性、词频对少样本性能影响、减少性别偏见等多领域研究，并呈现了相关案例研究。
资源获取：训练好的模型、分析代码、训练代码和训练数据可在 https://github.com/EleutherAI/pythia 获取。
意义与影响：其高度可控的设置能为理解 LLMs 及其训练动态带来新见解，还启发了 LLM360 的 Amber、AI2 的 OLMo 等类似项目。

Scaling Data-Constrained Language Models → NeurIPS 2023

Niklas Muennighoff, Alexander M Rush, Boaz Barak, Teven Le Scao, Nouamane Tazi, Aleksandra Piktus, Sampo Pyysalo, Thomas Wolf, Colin Raffel

当前语言模型的扩展趋势是增加参数数量和训练数据集规模，但受互联网文本数据量限制，数据集规模扩展可能受限。基于此，该研究在数据受限情况下对语言模型进行探究。通过大规模实验，调整数据重复程度和计算预算（训练令牌达 9000 亿、模型参数达 90 亿），发现固定计算预算下，使用重复数据训练 4 轮与使用唯一数据相比，损失变化可忽略不计，但更多重复会使增加计算的价值最终降为零。研究提出并验证了计算最优性的缩放定律，还尝试了缓解数据稀缺的方法，如用代码数据扩充训练集、去除常用过滤器等。400 次训练运行产生的模型和数据集可在https://github.com/huggingface/datablations免费获取。

Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning →ICLR 2024

Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, Danqi Chen

背景：LLaMA 等中等规模大语言模型的流行凸显了构建更小但强大模型的潜力，但从头训练成本高。
方法：研究结构化剪枝，通过两种关键技术从预训练大模型开发小模型：一是目标结构化剪枝，端到端移除层、注意力头等以将大模型剪至特定目标形状；二是动态批次加载，基于不同领域的损失动态更新每个训练批次的采样数据组成。
成果：推出 Sheared-LLaMA 系列，将 LLaMA2-7B 模型剪至 1.3B 和 2.7B 参数，在多种下游和指令微调评估中优于同规模开源模型（如 Pythia、TinyLlama 等），且计算量仅为从头训练的 3%。
结论：利用现有大模型进行结构化剪枝是构建具竞争力小规模大模型的更具成本效益的方法。

https://github.com/princeton-nlp/LLM-Shearing

Skill-it! A Data-Driven Skills Framework for Understanding and Training Language Models →NeurIPS 2023

Mayee F. Chen, Nicholas Roberts, Kush Bhatia, Jue Wang, Ce Zhang, Frederic Sala, Christopher Ré

研究核心：在固定 token 预算下，探究如何精选训练数据以提升预训练大语言模型在下游任务的性能。
理论框架：基于假设 —— 语言模型学习技能时存在自然顺序（类似人类按特定顺序习得关联技能），并据此将 “技能” 及 “有序技能集” 与相关数据结合进行形式化定义。
关键发现：
- 合成与真实数据均证明有序技能集存在，先学习基础技能可减少学习高级技能所需的数据量。
算法及效果：
- 提出在线数据采样算法 Skill-It，适用于持续预训练和微调场景。
- 持续预训练中，在 LEGO 合成数据上，较随机采样准确率高 36.5 个百分点。
- 微调场景下，在 Natural Instructions 数据集上，目标技能的验证损失较直接训练降低 13.6%。
实际应用：基于 RedPajama 数据集对 3B 参数模型持续预训练，用 1B token 在 LM Evaluation Harness 上的准确率高于基线方法（用 3B token 均匀采样数据源）。

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models → ICLR 2024

Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo

背景：目前常用专有大语言模型（如 GPT-4）评估长文本回复，但因闭源、版本不可控及成本高，对需大规模评估和自定义标准（如儿童可读性）的从业者而言不可靠。
方案：提出完全开源的大语言模型 Prometheus，在有适当参考资料（参考答案、评分标准）时，评估能力与 GPT-4 相当。
数据集与训练：构建 Feedback Collection 数据集（含 1K 细粒度评分标准、20K 指令、100K GPT-4 生成的回复及语言反馈），据此训练出 13B 参数的 Prometheus，可基于用户提供的自定义评分标准评估任何长文本。
实验结果：
- 用 45 个自定义评分标准评估时，与人类评估者的皮尔逊相关系数达 0.897，与 GPT-4（0.882）相当，远超 ChatGPT（0.392）。
- 在 4 个基准（MT Bench 等）的 1222 个自定义评分标准上与 GPT-4 的相关性测试显示出类似趋势，印证其评估能力。
- 在两个人类偏好基准（HHH Alignment、MT Bench Human Judgment）上，准确性高于专为人类偏好数据集训练的开源奖励模型，凸显其作为通用奖励模型的潜力。
开源信息：代码、数据集和模型已开源（附链接）。https://kaistai.github.io/prometheus/

Is A.I. Art Stealing from Artists? → 2023

Kyle Chayka

核心要点总结

艺术家遭遇 AI 侵权：田纳西州艺术家 Kelly McKernan 发现其名字被频繁用于 AI 图像生成工具（如 Midjourney）的提示词中，生成的图像明显模仿其艺术风格（融合新艺术运动与科幻的酸性色彩风格），相关使用次数超 1.2 万次。
集体诉讼详情：McKernan 与另外两位艺术家 Sarah Andersen、Karla Ortiz 联合发起集体诉讼，被告包括 Midjourney、Stable Diffusion、DreamUp 等 AI 图像生成工具开发商。诉讼核心为 “三 C 问题”：未获艺术家同意使用其受版权保护的作品训练 AI、未提供补偿、生成图像时未标注来源。这些工具均依赖包含 50 亿张网络图像的 LAION-5B 数据库，原告律师认为 AI 生成图像属于 “侵权衍生作品”。
版权争议焦点：
- 风格版权问题复杂：过往案例中，视觉艺术领域对风格模仿的侵权判定较宽松（如 Richard Prince 的 “transformative use” 辩护成功），音乐领域则更保守（如 Robin Thicke 因《Blurred Lines》模仿 Marvin Gaye 作品败诉）。
- 律师观点对立：原告律师认为 AI 仅 “机械混合” 源材料，不构成 “转化性使用”；知识产权律师 Kate Downing 则认为 AI 对单幅作品的使用占比低，生成结果未必是单一作品的衍生。
行业影响与担忧：深层问题：引发 “艺术本质” 的思考 —— 艺术是否包含创作过程、人类情感与交流？AI 生成作品剥离了这些元素，同时带来利益分配等现实争议。
- 创作者生存受威胁：艺术家、程序员等创作者发现其劳动成果被 AI 无授权复制，且 AI 工具导致工作机会减少（如出版商用 AI 替代封面艺术家）。
- 行业垄断被打破：AI 工具让普通人也能生成内容（如 Drayk.it 生成类似 Drake 风格的歌曲），模糊了创作者与用户的界限，但作品往往缺乏深度

Tremblay v. OpenAI, Inc. → 2023

Saveri, Joseph R. and Zirpoli, Cadio and Young, Christopher K.L. and McMahon, Kathleen J.

案件核心信息总结

一、当事人信息

原告：Paul Tremblay（马萨诸塞州作家，著作包括《The Cabin at the End of the World》）、Mona Awad（马萨诸塞州作家，著作包括《13 Ways of Looking at a Fat Girl》《Bunny》），代表全体同类版权所有者提起集体诉讼。
被告：OpenAI 相关实体（含 OpenAI, Inc.、OpenAI, L.P. 等 7 家关联公司，总部位于旧金山）。
原告代理律师：Joseph R. Saveri 等（来自 JOSEPH SAVERI LAW FIRM, LLP）及 Matthew Butterick。

二、案件背景与核心指控

争议焦点：被告未经原告及同类版权所有者许可，将其受版权保护的书籍作为训练数据用于 ChatGPT（由 GPT-3.5、GPT-4 等大语言模型驱动），构成多项违法。
关键事实：
- 大语言模型依赖 “训练数据集” 复制和提取文本信息，输出内容完全基于训练材料。
- 原告书籍被纳入 ChatGPT 训练数据，且 ChatGPT 能准确总结原告作品（附证据），但未保留版权管理信息（如作者名、出版年份）。
- 被告训练数据可能来自有争议的来源：如 BookCorpus（含未经授权的Smashwords.com书籍）、“影子图书馆”（如 LibGen、Z-Library 等非法聚合平台）。

三、诉讼请求与法律依据

指控罪名（共 6 项）：
- 直接版权侵权（17 U.S.C. § 106）：未经许可复制、制作衍生作品。
- 替代版权侵权：控制 ChatGPT 输出并从中获利，需为侵权输出负责。
- 违反《数字千年版权法》（17 U.S.C. § 1202 (b)）：移除版权管理信息。
- 违反加州不正当竞争法（Cal. Bus. & Prof. Code §§ 17200）：非法使用原告作品谋利。
- 过失：未履行合理注意义务，擅自使用原告作品。
- 不当得利：利用原告作品获利却未支付报酬。
诉讼请求：
- 确认集体诉讼资格，判令被告承担法律责任。
- 赔偿法定损害赔偿金、实际损失、利润返还等。
- 永久禁令（如要求 ChatGPT 补充版权信息）。
- 承担诉讼费、律师费及集体通知费用，要求陪审团审判。

四、案件基本信息

受理法院：美国加利福尼亚州北区联邦地区法院（旧金山分部）。
案号：3:23-cv-03223-AMO。
提交日期：2023 年 6 月 28 日。

Making Large Language Models Better Data Creators → ACL 2023

Dong-Ho Lee, Jay Pujara, Mohit Sewak, Ryen White, Sujay Jauhar

尽管大型语言模型（LLMs）显著推动了自然语言处理（NLP）发展，但因其成本、响应速度、可控性及隐私安全等问题，在下游应用部署中仍存挑战，部分场景下可训练模型仍是首选。
可训练模型需人工标注数据，成本高、耗时长，现有借助 LLMs 标注或生成数据的技术在实际应用中存在困难（如标注需谨慎选数据、生成需特定提示工程）。
本文提出统一数据创建流程，仅需一个格式化示例，适用于多种任务（包括标签空间语义匮乏的难题）。
实验表明，遵循指令的 LLMs 是高成本效益的数据生成工具，用其生成数据训练的模型在分布外评估中性能优于人工标注数据训练的模型（最多高 17.5%），且在分布内任务中性能相当，该结果对实际部署的 NLP 系统稳健性有重要意义。

The Flan Collection: Designing Data and Methods for Effective Instruction Tuning → ICML 2023

Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V. Le, Barret Zoph, Jason Wei, Adam Roberts

研究内容：分析公开可用的指令微调方法的设计决策，拆解 Flan 2022 的开发过程，并通过对 Flan 任务和方法集的细致消融研究，剖析使 Flan-T5 在各评估场景中优于先前工作 3 - 17% + 的设计决策效果。
关键发现：任务平衡和增强技术虽被忽视但对有效指令微调至关重要；混合提示设置（零样本、少样本、思维链）训练能在所有场景中提升 2% + 的性能。
进一步实验结果：Flan-T5 在单个下游任务上比 T5 收敛更快、效果更好，所需微调更少，表明指令微调模型是新任务更具计算效率的初始检查点。
公开资源：为促进指令微调研究，公开 Flan 2022 的数据集、模板和方法。https://github.com/google-research/FLAN/tree/main/flan/v2

WizardLM: Empowering large pre-trained language models to follow complex instructions → ICLR 2024

Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Qingwei Lin, Daxin Jiang

背景：开源指令数据训练大语言模型（LLMs）成效显著，但人工创建此类数据耗时费力，且难产出高复杂度指令。
方法：提出 Evol - Instruct 方法，以初始指令为基础，逐步重写生成大量不同复杂度的指令，混合后微调 LLaMA，得到 WizardLM 模型。
结果：
- 人类评估显示，Evol - Instruct 生成的指令优于人工创建的；在高复杂度部分，WizardLM 输出优于 OpenAI ChatGPT。
- GPT - 4 自动评估中，WizardLM 在 29 项技能中的 17 项达到 ChatGPT 90% 以上能力。
结论：虽 WizardLM 在某些方面仍落后于 ChatGPT，但用 AI 进化的指令微调是增强 LLMs 的可行方向，相关代码和数据已公开。https://github.com/nlpxucan/WizardLM

LIMA: Less Is More for Alignment → NeurIPS 2023

Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, LILI YU, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy

大型语言模型的训练分为无监督预训练（从原始文本学习通用表征）和大规模指令微调与强化学习（对齐任务和用户偏好）两个阶段。

为衡量两阶段的相对重要性，研究人员训练了 LIMA—— 一个 650 亿参数的 LLaMa 模型，仅用 1000 个精心筛选的提示和响应进行标准监督损失微调，未涉及强化学习或人类偏好建模。

LIMA 表现出显著优势：能从训练数据中少数例子学会遵循特定响应格式，处理从规划旅行到推测历史等复杂问题，且对未见过的任务泛化性好。

人类研究显示，LIMA 的响应在 43% 的情况下与 GPT-4 相当或更优，对比 Bard 时这一比例达 58%，对比经人类反馈训练的 DaVinci003 时达 65%。

结论：大型语言模型的几乎所有知识都在预训练阶段习得，少量指令微调数据即可使其产出高质量结果。

Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2 → 2023

Hamish Ivison, Yizhong Wang, Valentina Pyatkin, Nathan Lambert, Matthew Peters, Pradeep Dasigi, Joel Jang, David Wadden, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi

背景：自 TÜLU 发布后，指令微调的开放资源发展迅速，涵盖更优基础模型及新微调技术。
成果：将多项进展整合进 TÜLU，推出改进版 TÜLU 2 套件，旨在提升预训练语言模型适应下游任务和用户偏好的理解与最佳实践。
具体内容：
1. TÜLU-V2-mix：改进的高质量指令数据集集合。
2. TÜLU 2：在 V2 混合数据集上微调的 LLAMA-2 模型。
3. TÜLU 2+DPO：经直接偏好优化（DPO）训练的 TÜLU 2 模型，含目前最大的 DPO 训练模型（70B）。
4. CODE TÜLU 2：在 V2 混合数据集上微调的 CODE LLAMA 模型，性能优于 CODE LLAMA 及其指令微调变体。
评估与发布：多维度评估显示，TÜLU 2 套件在开放模型中性能领先，部分基准上达到或超过 GPT-3.5-turbo-0301；已发布所有检查点、数据、训练及评估代码，以助力未来大语言模型适应的开放研究。

Self-Instruct: Aligning Language Models with Self-Generated Instructions → ACL 2023

Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi

背景：大型指令微调语言模型虽能零样本泛化至新任务，但严重依赖人工编写的指令数据，此类数据在数量、多样性和创造性上存在局限，制约了模型泛化能力。
方法：提出 Self-Instruct 框架，通过利用预训练语言模型自身生成内容来提升其指令遵循能力。该流程先让模型生成指令、输入和输出样本，过滤无效或相似样本后，用于微调原始模型。
效果：
- 将该方法应用于基础 GPT3，在 Super-NaturalInstructions 上较原模型绝对提升 33%，性能与使用私人用户数据和人工标注训练的 InstructGPT-001 相当。
- 在专家编写的新任务指令评估中，经人类评估显示，用 Self-Instruct 微调的 GPT3 显著优于使用现有公开指令数据集的模型，仅比 InstructGPT-001 落后 5%。
意义：Self-Instruct 提供了一种近乎无需标注的方法，可使预训练语言模型与指令对齐，并发布大型合成数据集以助力未来指令微调研究。

What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning → ICLR 2024

Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He

核心背景：指令微调是大型语言模型在预训练后对齐终端任务和用户偏好的标准技术，数据工程在此过程中至关重要 —— 合适的少量数据即可实现优异性能，但目前对优质指令微调数据的特性及自动高效选择方法缺乏系统性理解。
研究内容：深入研究对齐任务的自动数据选择策略，从复杂性、质量、多样性三个维度通过对照研究衡量数据，检验现有方法并引入增强数据测量的新技术，进而提出基于这些测量结果的简单数据选择策略。
实验成果：基于该策略微调 LLaMA 和 Mistral 模型得到 deita 系列模型，仅用 6K SFT 训练数据，性能便优于或持平最先进的开源对齐模型；经 DPO 进一步训练（6K SFT + 10K DPO 样本）的 deita-Mistral-7B，在 MT-Bench 和 AlpacaEval 中分别取得 7.55 分和 90.06% 的成绩。
意义与贡献：为自动数据选择提供工具，助力高效数据对齐；发布模型及所选数据集，供未来研究更高效地对齐模型

Instruction Tuning for Large Language Models: A Survey → 2023

Shengyu Zhang, Linfeng Dong, Xiaoya Li, Sen Zhang, Xiaofei Sun, Shuhe Wang, Jiwei Li, Runyi Hu, Tianwei Zhang, Fei Wu, Guoyin Wang

该论文综述了指令微调（IT，又称监督微调 SFT）这一快速发展领域的研究成果，其作为增强大型语言模型（LLMs）能力与可控性的关键技术，通过在由（指令，输出）对构成的数据集上对 LLMs 进行监督式训练，弥合了 LLMs 的下一词预测目标与遵循人类指令目标之间的差距。

论文系统回顾了相关文献，包括：

SFT 的通用方法
SFT 数据集的构建
SFT 模型的训练
在不同模态、领域和应用中的应用
影响 SFT 结果的因素分析（如指令输出生成、指令数据集规模等）

此外，论文还探讨了 SFT 的潜在缺陷、相关批评，以及指出当前策略不足并提出有益研究方向的尝试。（项目页面：https://github.com/xiaoya-li/Instruction-Tuning-Survey）

Stanford Alpaca: An Instruction-following LLaMA Model → 2023

Rohan Taori and Ishaan Gulrajani and Tianyi Zhang... 2 hidden ... Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto

模型基础：Alpaca 模型基于 70 亿参数的 LLaMA 模型微调而成，训练数据为 5.2 万条遵循指令的数据，采用《Self-Instruct》论文中的技术并稍作修改。
初步评估：在人类评估中，Alpaca 7B 模型在 Self-Instruct 指令遵循评估套件上的表现与 text-davinci-003 相近。
现存局限：仍在开发中，尚未针对安全性和无害性进行微调，建议用户谨慎使用并反馈问题以改进。
发布内容：初始发布包含数据生成流程、数据集和训练方法；若获 LLaMA 创作者许可，计划发布模型权重；目前提供在线演示，以助了解其能力与局限及扩大评估范围。

How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources → NeurIPS 2023

Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi

研究内容：探究基于多种开放指令遵循数据集的指令微调语言模型最新进展，指出开放模型与顶尖专有模型性能相当的说法缺乏充分评估支持。
模型与数据：提供 6.7B 至 65B 参数规模的指令微调模型，训练数据涵盖 12 个指令数据集（含人工整理、合成与蒸馏数据），并推出基于高质量开放资源微调的最佳性能模型套件 Tülu。
评估方式：通过自动、模型及人类评估指标，系统评估模型在事实知识、推理、多语言能力、编码及开放式指令遵循方面的表现。
研究发现：不同指令微调数据集可挖掘或增强模型特定技能，但无单一数据集（或组合）能在所有评估中表现最佳；模型与人类偏好评估无法反映基准评估揭示的模型能力差异，凸显系统性评估的必要性。
性能对比：在各项评估中，最佳模型平均达到 ChatGPT 性能的 87%、GPT-4 性能的 73%，需进一步优化基础模型和指令微调数据以缩小差距。
资源发布：公开指令微调模型（含全微调的 65B Tülu）、代码、数据及评估框架（附链接），助力未来研究。

https://github.com/allenai/open-instruct

OpenAssistant Conversations -- Democratizing Large Language Model Alignment → NeurIPS 2023

Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc, Oliver Stanley, Richárd Nagyfi, Shahul ES, Sameer Suri, David Glushkov, Arnav Dantuluri, Andrew Maguire, Christoph Schuhmann, Huu Nguyen, Alexander Mattick

大语言模型（LLMs）与人类偏好对齐可显著提升可用性（如 ChatGPT），监督微调（SFT）、人类反馈强化学习（RLHF）等技术降低了使用门槛，增强了跨领域适用性。
但 RLHF 等顶尖对齐技术依赖高质量人类反馈数据，其成本高且多为专有资源。
为推动大规模对齐研究民主化，发布 OpenAssistant Conversations 语料库：含 161,443 条消息（35 种语言）、461,292 个质量评分，形成超 10,000 个完整标注对话树，由 13,500 余名志愿者协作完成。
基于该语料库训练的模型在标准基准测试中表现优于对应基础模型，代码和数据已在完全许可协议下公开。

OctoPack: Instruction Tuning Code Large Language Models → ICLR 2023

Niklas Muennighoff, Qian Liu, Armel Zebaze, Qinkai Zheng, Binyuan Hui, Terry Yue Zhuo, Swayam Singh, Xiangru Tang, Leandro von Werra, Shayne Longpre

核心方法：通过代码对大型语言模型（LLMs）进行指令微调，利用 Git 提交中代码变更与人类指令的自然配对结构。
数据资源：构建了 CommitPack，包含 350 种编程语言的 4TB Git 提交数据。
基准测试：在 16B 参数的 StarCoder 模型上，将 CommitPack 与 xP3x、Self-Instruct、OASST 等自然及合成代码指令对比，在 HumanEval Python 基准测试中实现 46.2% pass@1 的成绩，为未使用 OpenAI 输出训练的模型中的最佳。
扩展贡献：推出 HumanEvalPack，将 HumanEval 基准扩展至 6 种语言（Python、JavaScript、Java、Go、C++、Rust）的 3 类编码任务（代码修复、代码解释、代码合成）。
模型表现：相关模型 OctoCoder 和 OctoGeeX 在 HumanEvalPack 中所有宽松许可模型中表现最佳，体现 CommitPack 在多语言及自然编码任务泛化上的优势。
资源公开：代码、模型及数据可通过指定 URL 免费获取。

https://github.com/bigcode-project/octopack

SELF: Self-Evolution with Language Feedback → ACL ARR 2024

Jianqiao Lu, Wanjun Zhong, Wenyong Huang, Yufei Wang, Qi Zhu, Fei Mi, Baojun Wang, Weichao Wang, Xingshan Zeng, Lifeng Shang, Xin Jiang, Qun Liu

核心内容：提出 “SELF”（Self-Evolution with Language Feedback）新方法，助力大语言模型（LLMs）通过自我反思实现自主改进，类似人类学习过程。
实现步骤：
1. 先进行元技能学习，使模型具备自我反馈和自我优化能力。
2. 进入迭代式自我进化：利用无标签指令数据集生成初始回应，通过自我反馈和优化提升回应质量，再用优化后的数据微调模型，循环此过程实现渐进式改进。
额外优势：SELF 框架支持模型在推理阶段应用自我优化，进一步提升回应质量。
实验验证：在数学和通用任务中的实验表明，SELF 能在无人类干预的情况下增强 LLMs 能力。
意义：为 LLMs 自主进化指明方向，推动其从被动信息接收者转变为主动发展参与者。

#InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models →ICLR 2024

Keming Lu, Hongyi Yuan, Zheng Yuan, Runji Lin, Junyang Lin, Chuanqi Tan, Chang Zhou, Jingren Zhou

核心背景：基础语言模型通过有监督微调（SFT）获得指令遵循能力，但 SFT 数据集中的多样性和复杂性这两个关键因素定义模糊，缺乏定量分析。
研究方案：提出开放集细粒度标记工具 InsTag，基于语义和意图对 SFT 数据集样本标记，并用标记定义指令的多样性和复杂性，共得到 6.6K 个标记来描述各类用户查询。
分析发现：对主流开源 SFT 数据集分析后，发现模型能力随数据多样性和复杂性提升而增强。
实践成果：基于 InsTag 提出数据选择器，从开源数据集中筛选 6K 个多样且复杂的样本微调模型，得到的 TagLM 在 MT-Bench 评估中优于基于更大规模 SFT 数据的开源模型，印证了查询多样性和复杂性的重要性。
开源信息：InsTag 已开源（链接见原文）。

https://github.com/OFA-Sys/InsTag

Instruction Mining: Instruction Data Selection for Tuning Large Language Models → ICLR 2024

Yihan Cao, Yanbin Kang, Chi Wang, Lichao Sun

大型语言模型（LLMs）先经预训练获得广泛能力，再通过指令遵循数据集微调以提升人机交互性能，但缺乏选择高质量微调数据集的标准指南。
本文提出 InstructMining 方法，可自动筛选优质指令遵循数据，其利用自然语言指标评估未见过的数据集。
实验发现 LLM 微调存在双重下降现象，据此借助 BlendSearch 从 10 万个数据中选出最佳子集（2532 个）。
结果显示，InstructMining - 7B 在 LLM - as - a - judge 和 Huggingface OpenLLM leaderboard 这两个主流基准测试中表现最优。

Active Instruction Tuning: Improving Cross-Task Generalization by Training on Prompt Sensitive Tasks → EMNLP 2023

Po-Nien Kung, Fan Yin, Di Wu, Kai-Wei Chang, Nanyun Peng

背景：指令微调（IT）通过在大量多样化任务上训练大型语言模型（LLMs）实现了出色的零样本泛化，但如何选择新任务以提升其性能和泛化性仍是未解决的问题 —— 训练所有现有任务计算成本过高，随机选择则可能效果欠佳。
方法：提出基于提示不确定性的主动指令微调框架，通过当前模型对扰动提示输出的不一致性来衡量新任务的信息量，并基于此选择任务进行训练。
实验结果：在 NIV2 和 Self-Instruct 数据集上的实验表明，该方法持续优于其他任务选择基线策略，能以更少的训练任务实现更好的分布外泛化。
额外发现：引入基于提示不确定性和预测概率的任务地图，发现训练模糊（提示不确定）的任务可提升泛化性，而训练困难（提示确定但概率低）的任务无益处，强调了任务选择对指令微调的重要性。

The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI

Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker

背景：语言模型训练依赖海量、多样且文档记录不一致的数据集，引发法律和伦理风险。
行动：法律与机器学习专家开展跨学科合作，系统审计和追踪 1800 多个文本数据集，开发工具和标准以追溯其来源、创建者、许可条件、属性及后续使用等谱系信息。
发现 1：商业开放与封闭数据集在构成和关注点上存在显著差异，封闭数据集垄断了低资源语言、更具创造性的任务、更丰富的主题、更新及更多合成训练数据等重要类别，这加剧了不同许可条件下可用数据类型的分化，也对版权和合理使用的司法解读产生更大影响。
发现 2：广泛使用的数据集托管网站上，许可证常被错误分类，遗漏率超 70%，错误率超 50%，导致热门数据集的归属错误和使用不当问题严峻。
贡献：发布完整审计结果及带有交互式界面的 “数据来源探索器”，助力从业者追踪和筛选最受欢迎的开源微调数据集合的来源，推动数据集透明度和负责任使用的提升

https://www.dataprovenance.org/

Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models → 2024

Terry Yue Zhuo, Armel Zebaze, Nitchakarn Suppattarachai, Leandro von Werra, Harm de Vries, Qian Liu, Niklas Muennighoff

背景：大语言模型（LLMs）全参数微调（FFT）成本高昂，催生了一系列参数高效微调（PEFT）方法，但不同模型规模下哪种方法性价比最高尚不明确。
研究内容：引入 Astraios，这是一套包含 28 个指令微调的 OctoCoder 模型，使用 7 种微调方法和 4 种模型规模（最大 160 亿参数）；在涵盖代码理解和生成任务的 5 类任务、8 个数据集上展开研究。
发现：
- FFT 在所有规模下通常能带来最佳下游性能，PEFT 方法的效果因模型规模差异显著。
- LoRA 通常在成本和性能间提供最有利的平衡。
- 进一步研究显示，更大的模型往往稳健性更差、安全性更低。
- 小型模型的微调效果可良好推广到大型模型，指令微调中的验证损失可作为整体下游性能的可靠指标。

https://github.com/bigcode-project/astraios

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model → ACL 2024

Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker

背景：当前大语言模型（LLMs）的突破主要集中于少数数据丰富的语言，需拓宽其在 “非一流语言” 中的应用。
成果：推出大规模多语言生成模型 Aya，支持 101 种语言的指令遵循，其中超 50% 为低资源语言。
性能：在多数任务上优于 mT0 和 BLOOMZ，覆盖语言数量翻倍。
评估：构建了扩展的新评估套件，涵盖 99 种语言的判别式与生成式任务、人工评估及模拟胜率，涉及预留任务和分布内性能。
研究：对模型微调混合成分、数据修剪及毒性、偏见、安全性进行了详细研究。
开源：公开了指令数据集和模型

https://huggingface.co/CohereLabs/aya-101

Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models → ACL 2024

Dheeraj Mekala, Alex Nguyen, Jingbo Shang

本文提出一种基于样本学习率的新型训练数据选择方法，核心要点如下：

该方法利用现有语言模型自主筛选高质量训练数据，可在降低训练成本的同时，达到甚至超越使用完整数据集训练的效果。
实验覆盖 1B 到 13B 不同规模模型，证实该特性对各类模型均适用。
发现数据难度可跨模型规模迁移：350M 小模型能为 13B 大模型有效筛选含高难度样本的优质数据，训练效果等同甚至优于全量数据。
基于开源的 OPT、Llama-2（最大 13B）模型，结合两个公开指令微调数据集，通过自动指标与人工评估验证，为指令微调提供了更高效的替代方案。

Automated Data Curation for Robust Language Model Fine-Tuning → ACL 2024

Jiuhai Chen, Jonas Mueller

大语言模型（LLM）是序列到序列文本生成的主流方法，但在特定任务 / 领域中，预训练 LLM 缺乏生成准确或格式良好响应的能力。
有监督微调通过示例提示与目标响应数据集训练 LLM 以实现专门化，但现实世界数据往往存在噪声。
本文从数据中心 AI 视角研究 LLM 微调，关注如何系统地筛选训练数据集，以提升任何微调算法生成的 LLM 性能。
提出自动化数据筛选管道 CLEAR，适用于任何 LLM 和微调过程，通过 LLM 衍生的置信度估计识别低质量训练数据并进行过滤或修正，且仅进行有把握的修改。
与现有数据筛选技术不同，CLEAR 是无需额外微调计算就能改进数据集（及训练模型输出）的综合框架，且不依赖比待微调模型更强的 LLM。
实验表明，CLEAR 能在多个数据集和模型（如 GPT-3.5、Llama2）上持续提升微调模型的性能。

Data Selection for Preference Fine-tuning: Alignment

Notus → 2023

模型性质：Notus 是一系列微调模型，采用了 SFT、DPO、SFT+DPO 以及其他 RLAIF/RLHF 技术，遵循以数据为优先、以人为中心的方法。
应用与评估：旨在通过类聊天应用作为助手使用，通过聊天类（MT-Bench、AlpacaEval）和学术类（Open LLM Leaderboard）基准进行评估，以便与其他类似大语言模型直接比较。
名称由来：名字源自古希腊神祇 Notus（南风之神），与源自古希腊神祇 Zephyrus（西风之神）的 Zephyr 相呼应，更多相关信息可参考https://en.wikipedia.org/wiki/Anemoi
致谢：感谢开源社区及相关公开资源的帮助，特别感谢 HuggingFace H4 团队在 alignment-handbook 方面的出色工作，以及与他们富有成效的讨论和支持。

UltraFeedback: Boosting Language Models with Scaled AI Feedback → ICML 2024

Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Bingxiang He, Wei Zhu, Yuan Ni, Guotong Xie, Ruobing Xie, Yankai Lin, Zhiyuan Liu, Maosong Sun

背景：人类反馈是大语言模型（LLMs）与人类偏好对齐的关键技术，但存在获取成本高、规模小、主题有限等问题，制约了开源社区的相关研究。
解决方案：探索以高质量 AI 反馈作为可扩展替代方案，聚焦反馈数据的规模和多样性，通过扩充指令与响应的数量和广度、减轻标注偏差等方式构建数据集。
成果：发布包含超 100 万条 GPT-4 反馈、覆盖 25 万组多领域用户 - 助手对话的 “UltraFeedback” 数据集；基于该数据集，通过最佳采样和强化学习对齐的 LLaMA 模型在聊天基准测试中表现优异。
意义：验证了规模化 AI 反馈数据在构建强大开源聊天模型中的有效性，为未来反馈学习研究奠定基础，数据和模型已公开。

https://github.com/OpenBMB/UltraFeedback

Exploration with Principles for Diverse AI Supervision → MATH-AI 2023

Hao Liu, Matei Zaharia, Pieter Abbeel

基于下一句预测训练大型 Transformer 推动了 AI 重大进步，但生成式 AI 严重依赖人类监督（如 ChatGPT 需人类演示微调），成为 AI 创新的障碍。
为解决此问题，提出探索式 AI（EAI）范式，旨在自主生成高质量训练数据，其灵感源于无监督强化学习预训练，可在自然语言空间实现探索。
EAI 包含两个关键组件：遵循探索原则生成新内容的 “行动者”，以及评估生成内容并提供反馈指导行动者的 “批评者”。
实证评估显示，EAI 能显著提升模型在复杂推理任务中的表现，克服了对人类监督的高度依赖。

Shepherd: A Critic for Language Model Generation → 2023

Tianlu Wang, Ping Yu, Xiaoqing Ellen Tan, Sean O'Brien, Ramakanth Pasunuru, Jane Dwivedi-Yu, Olga Golovneva, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz

背景：随着大型语言模型的改进，利用其能力优化自身输出的技术引发越来越多关注。
介绍：本文推出 Shepherd，这是一款专门调校用于评判响应并提出改进建议的语言模型，其识别各类错误及提供修正建议的能力超过未调校模型。
核心：其方法核心是高质量反馈数据集，该数据集源自社区反馈和人工标注。
表现：尽管 Shepherd 规模较小（70 亿参数），但其评判效果与 ChatGPT 等成熟模型相当或更优。经 GPT-4 评估，与竞品相比，Shepherd 的平均胜率达 53%-87%；在人工评估中，它显著优于其他模型，平均表现与 ChatGPT 接近。

https://github.com/facebookresearch/Shepherd

No Robots →2023

Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf

基本信息：由熟练人类标注者创建的高质量指令数据集，含 10,000 条指令及演示，用于监督微调（SFT）以提升语言模型的指令遵循能力，模仿 OpenAI 的 InstructGPT 论文中的数据集设计，以单轮指令为主。
类别分布：涵盖 11 个类别，其中 “生成” 类最多（4560 条），“提取” 类最少（190 条），其他类别包括开放问答（1240）、头脑风暴（1120）等。
支持任务与基准：用于指令微调预训练语言模型，推荐基准测试包括 MT-Bench、AlpacaEval，同时建议在 Chatbot Arena 进行人类评估（因前两者依赖 LLM 评判存在偏差，可能导致该数据集训练模型得分较低）。
语言：仅含英语（BCP-47 en）。
数据结构：
- 数据实例：包含 “prompt”“prompt_id”“messages”（含系统、用户、助手角色及内容）“category” 等字段。
- 数据拆分：分为 train_sft（9500 条）和 test_sft（500 条）。

Scaling laws for reward model overoptimization → ICML 2023

Gao, Leo and Schulman, John and Hilton, Jacob

背景：基于人类偏好训练的奖励模型是不完美的代理，过度优化其价值会依据古德哈特定律损害实际性能，此现象常见但因人类偏好数据收集成本高而未被仔细衡量。
方法：采用合成设置，以固定 “黄金标准” 奖励模型模拟人类，提供标签训练代理奖励模型，研究通过强化学习或 n 中选优抽样优化代理奖励模型时，黄金奖励模型分数的变化。
发现：这种关系的函数形式因优化方法而异，且两种情况下其系数均随奖励模型参数数量平滑变化；还研究了奖励模型数据集大小、奖励模型和策略参数数量、强化学习设置中奖励 KL 惩罚系数对此关系的影响。
意义：探讨了这些实证结果对人工智能对齐理论思考的启示

SALMON: Self-Alignment with Instructable Reward Models → ICLR 2024

Zhiqing Sun, Yikang Shen, Hongxin Zhang, Qinhong Zhou, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan

背景：基于监督微调（SFT）与人类反馈强化学习（RLHF）的范式能对齐大语言模型（LLM）代理，但依赖高质量人类标注，在复杂任务中因难获一致演示和偏好而受限。
方法：提出新方法 SALMON，仅用少量人类定义的原则即可对齐基础语言模型，核心是可指导的奖励模型 —— 通过合成偏好数据训练，能基于任意人类原则生成奖励分数，减少对在线人类偏好收集的依赖。
成果：将该方法应用于 LLaMA-2-70b，开发出 AI 助手 Dromedary-2，仅用 6 个上下文学习示例和 31 条人类原则，就在多个基准数据集上显著超越 LLaMA-2-Chat-70b 等先进系统。
开源：已开源代码和模型权重，以促进相关研究。

https://github.com/IBM/SALMON

Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback → TMLR 2023

Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomek Korbak, David Lindner, Pedro Freire, Tony Tong Wang, Samuel Marks, Charbel-Raphael Segerie, Micah Carroll, Andi Peng, Phillip J.K. Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan

核心内容：强化学习人类反馈（RLHF）是训练 AI 系统与人类目标对齐的技术，是当前微调顶级大语言模型（LLMs）的核心方法。
研究重点：尽管应用广泛，但公开的 RLHF 缺陷系统化研究较少。本文（1）梳理了 RLHF 及相关方法的公开问题与基本局限；（2）概述了实践中理解、改进和补充 RLHF 的技术；（3）提出了审计和披露标准，以加强对 RLHF 系统的社会监督。
核心观点：强调 RLHF 的局限性，以及采用多层次方法开发更安全 AI 系统的重要性。

Llama 2: Open Foundation and Fine-Tuned Chat Models → 2023

Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom

本文开发并发布了 Llama 2，这是一系列预训练和微调的大型语言模型，参数规模从 70 亿到 700 亿不等。
其中微调后的 Llama 2-Chat 模型针对对话场景进行了优化。
该模型在多数测试基准上表现优于开源聊天模型，且经人类对其有用性和安全性的评估，或可作为闭源模型的合适替代品。
文中详细介绍了 Llama 2-Chat 的微调方法和安全性改进，旨在助力社区在此基础上开展工作，推动大型语言模型的负责任发展。

HuggingFace H4 Stack Exchange Preference Dataset → 2023

Lambert, Nathan and Tunstall, Lewis and Rajani, Nazneen and Thrush, Tristan

数据集概述：源自 Stack Overflow 数据 dump，含问题与答案，用于偏好模型训练，问题需满足≥2 个答案的条件，也可用于指令微调及语言模型训练。
评分规则：答案得分按 Anthropic 论文计算，即 log₂(1 + 点赞数) 四舍五入取整，若获提问者采纳加 1 分，点赞数为负则得 - 1 分。
偏好模型预训练（PMP）注意事项：
- 数据可能因分数匹配需进一步过滤。
- 参考 Askel 等人 2021 年论文 4.1 节，通过二元化处理将每个样本对使用两次（对排名 A＞B 的 pair，转化为 GOOD:A＞BAD:A 和 BAD:B＞GOOD:B 两个独立二元比较），以优化预训练初始化。
数据使用：提供所用 Stack Exchange 平台列表文件；因许可证限制，未直接分享二元化数据，而是提供二元化处理脚本

Textbooks Are All You Need → ICLR 2024

Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li

模型介绍：phi-1 是一款新型代码大语言模型，基于 Transformer，含 1.3B 参数。
训练情况：用 8 台 A100 训练 4 天，数据包括 6B 网络 “教科书级” 文本及 1B GPT-3.5 生成的合成教材与练习。
性能表现：在 HumanEval 上 pass@1 准确率达 50.6%，MBPP 上为 55.5%。
对比模型：
- phi-1-base：未在代码练习数据集上微调的基础模型。
- phi-1-small：350M 参数的更小模型，训练流程与 phi-1 一致，HumanEval 准确率仍达 45%。
特点：规模显著小于同类模型，相比相关模型展现出令人惊讶的涌现特性。

Quality-Diversity through AI Feedback →2023

Herbie Bradley, Andrew Dai, Hannah Teufel, Jenny Zhang, Koen Oostermeijer, Marco Bellagente, Jeff Clune, Kenneth Stanley, Grégory Schott, Joel Lehman

背景：在文本生成任务中，用户常希望获得多样且高质量的输出，但质量多样性（QD）搜索算法在创意写作等定性领域应用受限，因难以用算法定义质量和多样性指标。
新进展：语言模型（LMs）的发展使通过 AI 反馈指导搜索成为可能，即 LMs 可通过自然语言提示评估文本的定性方面。
方法：基于此，提出 “通过 AI 反馈实现质量多样性（QDAIF）”，其采用进化算法，让 LMs 同时负责生成变体及评估候选文本的质量和多样性。
结果：在创意写作领域测试中，QDAIF 比非 QD 方法能覆盖更多搜索空间且样本质量高；人类评估也显示 AI 与人类评价有合理一致性。
意义：凸显 AI 反馈在指导开放式搜索以获取创意原创方案方面的潜力，该方法或可推广至多个领域和模态，是 AI 系统向具备独立搜索、多样化、评估和改进能力（人类创新核心技能）迈进的一步。

https://github.com/CarperAI/OpenELM

Direct Preference Optimization: Your Language Model is Secretly a Reward Model → NeurIPS 2023

Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn

背景：大型无监督语言模型（LM）虽能学习广泛知识和部分推理能力，但因其无监督训练特性，难以精确控制行为。现有控制方法（如基于人类反馈的强化学习 RLHF）需收集人类对模型生成内容质量的标注并微调模型，然而 RLHF 流程复杂且不稳定，需先拟合反映人类偏好的奖励模型，再通过强化学习微调 LM 以最大化奖励，同时避免偏离原模型过远。
创新：本文提出 RLHF 中奖励模型的新参数化方式，可通过闭式解提取对应最优策略，仅用简单分类损失即可解决标准 RLHF 问题，该算法称为直接偏好优化（DPO）。
优势：DPO 稳定、高效、计算成本低，微调时无需从 LM 采样，也无需大量超参数调优。
实验结果：DPO 能像现有方法一样或更好地微调 LM 以对齐人类偏好，在控制生成内容情感方面超过基于 PPO 的 RLHF，在摘要和单轮对话任务中匹配或提升响应质量，且实现和训练更简单。

Scaling Relationship on Learning Mathematical Reasoning with Large Language Models → ICLR 2024

Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu, Chuanqi Tan, Chang Zhou, Jingren Zhou

研究背景：数学推理对大语言模型（LLMs）是挑战，其与模型能力的缩放关系研究不足。
核心发现：预训练损失比参数数量更能反映模型性能；监督数据量与模型性能呈对数线性关系，且性能越好的模型从扩大的监督数据集中获益越少。
提出方法：为无需人工即可增加数据样本，提出拒绝采样微调（RFT），利用监督模型生成并收集正确推理路径作为增强微调数据。
RFT 效果：增强样本包含的推理路径越多样，RFT 对 LLMs 数学推理性能提升越显著；对性能较差的 LLMs 提升更大。
实验结果：结合多模型的拒绝样本后，LLaMA-7B 在 GSM8K 上的准确率达 49.3%，显著优于监督微调（SFT）的 35.9%。

https://github.com/OFA-Sys/gsm8k-ScRel

The History and Risks of Reinforcement Learning and Human Feedback →CoRR 2023

Nathan Lambert, Thomas Krendl Gilbert, Tom Zick

人类反馈强化学习（RLHF）是提升大型语言模型（LLMs）易用性和有效性的重要技术，其核心是训练和使用人类偏好模型作为优化的奖励函数。
这一涉及多方和多学科的技术尚未被充分理解，尽管 RLHF 奖励模型被认为对性能至关重要，但关于其能力、评估、训练方法及开源模型的描述极少。
鉴于信息缺失，需对习得的 RLHF 奖励模型开展进一步研究并提高透明度。
本文阐述了偏好优化的复杂历史，明确了理解奖励模型社会技术背景的研究方向，尤其强调了 RLHF 基础中成本、奖励和偏好的本体差异、相关方法学张力，以及改善对奖励模型功能理解的可能研究方向。

Zephyr: Direct Distillation of LM Alignment →COLM 2023

Lewis Tunstall, Edward Beeching, Nathan Lambert, Nazneen Rajani, Kashif Rasul, Younes Belkada, Shengyi Huang, Leandro von Werra, Clémentine Fourrier, Nathan Habib, Nathan Sarrazin, Omar Sanseviero, Alexander M. Rush, Thomas Wolf

目标：打造一个与用户意图对齐的小型语言模型。
背景：此前研究表明，在大型模型上应用蒸馏监督微调（dSFT）能显著提升任务准确率，但这些模型未对齐，对自然提示响应不佳。
方法：为提炼对齐特性，利用 AI 反馈（AIF）的偏好数据，基于教师模型排序的输出数据集，应用蒸馏直接偏好优化（dDPO），仅需数小时训练，且微调时无需额外采样。
成果：生成的 Zephyr-7B 在 70 亿参数模型的聊天基准测试中达到最先进水平，无需人工标注；在 MT-Bench 上，其表现超过最佳开源 RLHF 模型 Llama2-Chat-70B。
资源：相关代码、模型、数据和教程可通过指定 URL 获取。

https://github.com/huggingface/alignment-handbook

Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement → ACL 2024

Wenda Xu, Guanglei Zhu, Xuandong Zhao, Liangming Pan, Lei Li, William Yang Wang

研究发现：大型语言模型（LLMs）通过自我反馈在部分任务上表现提升，另一部分却下降，原因在于其评估自身输出时存在偏差。
核心定义：正式定义 “自我偏差” 为模型倾向于偏爱自身生成内容，并通过两个统计量描述。
实验分析：对 GPT - 4、GPT - 3.5 等 6 种模型在翻译、受限文本生成、数学推理任务中分析，发现所有模型在多语言和多任务中普遍存在自我偏差；自我优化流程虽提升输出流畅度和可理解性，但会加剧自我偏差。
解决方案：更大模型规模及带有准确评估的外部反馈，可显著减少自我优化流程中的偏差，提升下游任务实际表现。
补充信息：代码和数据已在相关网址发布。

https://github.com/xu1998hz/llm_self_bias

Suppressing Pink Elephants with Direct Principle Feedback →2024

Louis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman

现有语言模型控制方法（如 RLHF、Constitutional AI）需预先确定理想行为并训练模型，但在推理时难以灵活适配多样场景需求。
以 “粉红大象问题” 为例：需模型避免讨论 “粉红大象”，转而讨论 “灰色大象”。
提出新方法 “直接原则反馈（DPF）”：简化 Constitutional AI，跳过响应排序，直接对评论和修订应用 DPO。
结果：基于合成 “粉红大象” 数据集微调的 13B 参数 LLaMA 2 模型，显著优于 Llama-2-13B-Chat 和提示词基线，在相关测试集上表现与 GPT-4 相当。

West-of-N: Synthetic Preferences for Self-Improving Reward Models → DPFM 2024

Alizée Pace, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn

强化学习从人类反馈（RLHF）在语言模型对齐中的成功，很大程度上依赖于基础奖励模型的质量。
本文提出一种新方法：通过生成合成偏好数据，用符合策略、高质量的偏好对扩充训练数据集，以提升奖励模型质量。
受 Best-of-N 采样策略在语言模型训练中良好效果的启发，将其应用扩展到奖励模型训练，形成自训练策略 —— 从给定查询的响应池中选择最佳和最差候选者来生成偏好对。
实证表明，该方法能提升任何奖励模型的性能，效果堪比添加等量人类偏好数据。
这项工作为改进语言模型对齐的 RLHF 开辟了新研究方向，提供了合成偏好生成这一解决奖励建模挑战的方案。

Statistical Rejection Sampling Improves Preference Optimization → ICLR 2024

Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh, Peter J Liu, Jialu Liu

背景：语言模型与人类偏好的对齐是研究难点，此前多采用在线的人类反馈强化学习（RLHF），近期出现的离线方法（如 SLiC、DPO）在稳定性和可扩展性上更优，性能也具竞争力。
现有方法局限：SLiC 基于监督微调（SFT）策略采样的序列对优化损失函数；DPO 直接基于偏好数据优化模型，无需单独奖励模型，但两者均无法从目标最优策略中采样偏好对（DPO 因无奖励模型受限，SLiC 仅能从 SFT 策略采样），而目标最优策略的最大似然估计需该策略的带标签偏好对。
新方法：提出统计拒绝采样优化（RSO），通过拒绝采样从目标最优策略获取偏好数据，更准确估计最优策略；还从偏好建模角度提出统一框架，增强 SLiC 和 DPO 的损失函数。
实验结果：经多任务实验，RSO 在大语言模型（LLMs）和人类评分中均持续优于 SLiC 和 DPO。

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models → ICML 2024

Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu

核心背景：利用人工标注数据的监督微调（SFT）对大语言模型（LLMs）进阶至关重要，本文探索无需额外人工标注数据、将弱 LLM 升级为强 LLM 的可能性。
提出方法：推出自博弈微调（SPIN）方法，以经 SFT 的模型为起点，核心是自博弈机制 —— 模型通过与自身实例对抗提升能力，利用前序迭代生成的数据，区分自生成响应与人工标注数据以优化策略。
理论与实证：理论上，SPIN 训练目标函数的全局最优仅在模型策略与目标数据分布一致时实现；实证中，在 HuggingFace Open LLM Leaderboard、MT-Bench、Big-Bench 等基准数据集上测试，显示 SPIN 能显著提升模型性能，甚至优于结合额外 GPT-4 偏好数据的直接偏好优化（DPO）模型。
其他：该方法表明自博弈无需专家对手即可助力 LLMs 达到人类水平性能，代码可通过指定 URL 获取。

https://github.com/uclaml/SPIN

Self-Rewarding Language Models → ICML 2024

Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston

核心观点：要实现超人类智能体，未来模型需要超人类反馈作为足够的训练信号。
现有问题：当前方法常基于人类偏好训练奖励模型，存在两个局限：一是受限于人类表现水平，二是独立的冻结奖励模型无法在大语言模型（LLM）训练中持续改进。
研究内容：提出 “自奖励语言模型”，即通过 “LLM 作为评判者” 的提示方式，让语言模型在训练中为自身提供奖励；在迭代 DPO 训练中，模型的指令遵循能力和自我提供高质量奖励的能力均得到提升。
实验结果：对 Llama 2 70B 进行三轮该方法微调后，其在 AlpacaEval 2.0 排行榜上表现优于 Claude 2、Gemini Pro、GPT-4 0613 等多个现有系统。
意义：为模型在能力和自我奖励能力两方面持续改进开辟了可能，仍有诸多探索空间。

Theoretical guarantees on the best-of-n alignment policy → ICML 2024

Ahmad Beirami, Alekh Agarwal, Jonathan Berant, Alexander D'Amour, Jacob Eisenstein, Chirag Nagpal, Ananda Theertha Suresh

核心方法：最佳 - of - n采样是生成模型推理时对齐和缩放测试时计算的简单有效方法，即从参考策略中抽取样本，基于奖励函数排序后选择排名最高的样本。
主要发现：
- 文献中常用的分析表达式称最佳 - of - 策略与参考策略的 KL 散度等于某值，本文证明该说法不成立，实际该值是 KL 散度的上界。
- 探讨了不同情况下该上界的紧度，提出新的 KL 散度估计器，实证显示其为紧密近似。
- 证明最佳 - of - 策略对参考策略的胜率以上界为限，并推导了该特征紧度的边界。
结论：分析了最佳 - of - 对齐策略在胜率和 KL 散度间的权衡，表明在特定条件下可实现良好权衡。

KTO: Model Alignment as Prospect Theoretic Optimization → ICML 2024

Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe Kiela

核心背景：卡尼曼和特沃斯基（1992）提出，人类对随机变量的感知存在有规律的偏差（如损失厌恶）。
现有发现：用于对齐大语言模型（LLMs）与人类反馈的目标函数（如 DPO），暗含了许多此类偏差，其优于交叉熵最小化的原因部分在于它们属于 “人类偏差导向损失函数”（HALOs）家族，但这些方法所归因的人类效用函数与前景理论文献存在差异。
新方法：基于卡尼曼 - 特沃斯基的人类效用模型，提出一种直接最大化生成内容效用的 HALO（名为 KTO），而非像现有方法那样最大化偏好的对数概率；该方法仅从输出是否合意的二元信号中学习，在 10 亿到 300 亿参数规模上表现与偏好类方法相当或更优。
结论：不存在普适最优的 HALO，最佳损失函数取决于特定场景下最适配的归纳偏差，这是一个常被忽视的问题。

Data Selection for In-Context Learning

Unified Demonstration Retriever for In-Context Learning → ACL 2023

Xiaonan Li, Kai Lv, Hang Yan, Tianyang Lin, Wei Zhu, Yuan Ni, Guotong Xie, Xiaoling Wang, Xipeng Qiu

背景：上下文学习（In-context learning）是一种新范式，语言模型通过少量输入 - 输出示例（演示）和测试输入直接生成预测，但其效果受演示影响，因此催生了演示检索研究（从训练集中为测试输入检索相关示例作为有效演示）。
现有问题：以往方法为不同任务单独训练特定检索器，难以迁移和扩展到多任务，且会导致大量参数存储和部署成本。
本文方案：提出统一演示检索器（UDR），一个可用于多种任务的单一模型。训练上，通过语言模型的反馈将多任务的训练信号转化为统一的列表式排序形式，并采用多任务列表式排序训练框架及迭代挖掘策略寻找高质量候选示例，以让 UDR 充分融合多任务信号。
实验结果：在 13 个任务家族的 30 + 任务及多数据领域上，UDR 显著优于基线模型。进一步分析表明其各组件有效，且在不同语言模型（1.3B、175B）、未见过的数据集、不同演示数量等场景中表现强劲。
后续计划：审稿后将发布代码和模型 checkpoint。

Which Examples to Annotate for In-Context Learning? Towards Effective and Efficient Selection → ICLR 2023

Costas Mavromatis, Balasubramaniam Srinivasan, Zhengyuan Shen, Jiani Zhang, Huzefa Rangwala, Christos Faloutsos, George Karypis

大语言模型（LLMs）可通过上下文学习（ICL）适应新任务，该方式无需更新模型参数，仅需少量标注示例，效率较高。
本文研究 ICL 场景下的主动学习方法（标注预算有限），提出模型自适应无优化算法 AdaICL。
AdaICL 的核心：识别模型不确定的示例，结合语义多样性选择示例。其中，多样性采样提升整体效果，不确定性采样提高预算效率并助力模型学习新信息。
AdaICL 将采样策略转化为最大覆盖问题，能基于模型反馈动态调整，可通过贪心算法近似求解。
实验结果：在 9 个数据集和 7 个 LLM 上，AdaICL 较现有最优方法（SOTA）准确率提升 4.4 个百分点（相对提升 7.7%）；预算效率是随机标注的 3 倍；仅用一半 ICL 示例即可超越 SOTA。

https://github.com/amazon-science/adaptive-in-context-learning

Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning → NeurIPS 2023

Xinyi Wang, Wanrong Zhu, Michael Saxon, Mark Steyvers, William Yang Wang

近年来，预训练大型语言模型（LLMs）在上下文学习（一种推理时少样本学习能力）上表现出色，但该能力对少样本演示的选择敏感。
目前对这种能力源于常规语言模型预训练目标的潜在机制的理解，与现实世界的 LLMs 脱节。
本研究从贝叶斯视角审视上下文学习现象，将现实世界的 LLMs 视为潜变量模型，提出一种用小型 LM 从带注释数据中选择最优演示、并直接推广到更大 LM 的算法。
在 8 个 GPT 模型和 8 个现实世界文本分类数据集上，该算法平均表现显著优于基线；在数学应用题数据集 GSM8K 上也证明了其实用性。
实证结果支持 LLMs 会隐式推断包含任务信息的潜变量这一假设。

Selective Annotation Makes Language Models Better Few-Shot Learners → ICLR 2023

Hongjin SU, Jungo Kasai, Chen Henry Wu, Weijia Shi, Tianlu Wang, Jiayi Xin, Rui Zhang, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu

背景：许多自然语言任务方法基于大型语言模型（LLM）的能力，LLM 可通过上下文学习从少量示例中完成新任务，无需参数更新。
研究内容：探讨上下文学习对新自然语言任务数据集创建的影响，提出一种高效标注的两步框架 —— 先从无标签数据中选择性标注示例，测试时再从标注池中检索任务示例。
方法：基于该框架，提出无监督、基于图的选择性标注方法 vote - k，用于选择多样化、有代表性的示例进行标注。
实验结果：在 10 个数据集（涵盖分类、常识推理、对话、文本 / 代码生成）上的实验显示，vote - k 大幅提升任务性能：标注预算为 18/100 时，相对随机选择示例分别平均提升 12.9%/11.4%；与最先进的有监督微调方法相比，在 10 个任务上以 10 - 100 倍更少的标注成本实现相近性能。
进一步分析：分析了该框架在不同场景（不同大小的语言模型、替代选择性标注方法、测试数据领域偏移情况）下的有效性，希望为 LLM 应用于新任务时的数据标注提供基础。

In-context Example Selection with Influences → 2023

Tai Nguyen, Eric Wong

背景：上下文学习（ICL）是大型语言模型（LLMs）的重要范式，但性能受输入示例影响极大。
研究内容：本研究通过相关方法直接从上下文示例中分析少样本 ICL 性能，提出基于影响力的示例选择方法，可识别积极和消极示例。
结果：在 9 个 SuperGLUE 任务中，该方法表现优于多个基线；分析发现，使用最消极示例与最积极示例相比，性能差距显著。
案例研究：将基于影响力的框架用于量化少样本 ICL 中示例排序的近因偏差现象。

https://github.com/BrachioLab/incontext_influences

Coverage-based Example Selection for In-Context Learning → EMNLP 2023

Shivanshu Gupta, Matt Gardner, Sameer Singh

背景：上下文学习（ICL）要求提示中的示例能为测试实例提供有效信息，而标准的独立排序选例方法存在冗余且遗漏关键信息的问题。
方法：
- 证明 BERTScore-Recall（BSR）能选出更优示例，可展示测试输入中更多突出方面（如推理模式）。
- 将 BSR 及多种标准指标扩展为易于优化的集合级指标（如 Set-BSR），进一步提升对关键信息的覆盖。
结果：在涵盖 6 类任务的 15 个数据集及 7 种大语言模型上，BSR 是最优的上下文示例选择指标；对于组合任务，Set-BSR 的集合选择平均优于独立排序达 17 个百分点，且无需训练，性能超过利用任务或特定大语言模型训练的方法。

Compositional Exemplars for In-context Learning → ICML 2023

Jiacheng Ye, Zhiyong Wu, Jiangtao Feng, Tao Yu, Lingpeng Kong

大预训练语言模型（LMs）具备出色的上下文学习（ICL）能力，能通过含输入输出示例的提示学习未见过的任务，且无需参数更新。
上下文示例的选择质量对 ICL 性能影响极大，但现有方法多基于简单启发式，效果欠佳。
本研究将上下文示例选择视为子集选择问题，提出 CEIL（Compositional Exemplars for In-context Learning）方法：基于行列式点过程（DPPs）建模输入与上下文示例的交互，并通过精心设计的对比学习目标优化以从 LMs 中获取偏好。
在涵盖 7 类 NLP 任务的 12 个分类和生成数据集上的验证表明，CEIL 性能领先，且具有可迁移性和组合性，为高效的上下文学习提供了新思路，相关代码已公开。

https://github.com/HKUNLP/icl-ceil

Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning → NAACL 2024

Kazuma Hashimoto, Karthik Raman, Michael Bendersky

这篇论文聚焦于大语言模型（LLMs）的上下文学习（ICL）能力，主要内容如下：

研究背景：ICL 允许 LLMs 通过少量演示作为黑盒处理新任务，此前研究表明用 LLMs 输出作为标签能有效训练模型选择演示，但不同标签策略对目标任务结果的影响尚不明确。
研究内容：分析了不同效用函数，关注给定真实输出时 LLMs 的输出概率，以及给定 LLMs 预测时的特定任务奖励；还提出新标签方法 “增量效用”，用于评估演示为 LLMs 带来的增量知识。
实验与结果：在多语言（阿拉伯语、英语、芬兰语、日语、西班牙语）的二分类 / 多分类、分割和翻译任务上，用指令微调的 LLMs 进行实验，发现：（1）在分类任务中，当概率值分布于整个取值范围时，概率指标有效；（2）在分割和翻译任务中，当长输出伴随细微奖励值时，下游指标更稳健；且所提增量效用通过对比 LLMs 有无演示时的表现，进一步助力 ICL。

Ambiguity-Aware In-Context Learning with Large Language Models → 2023

Lingyu Gao, Aditi Chaudhary, Krishna Srinivasan, Kazuma Hashimoto, Karthik Raman, Michael Bendersky

背景：上下文学习（ICL）通过向大语言模型（LLMs）展示少量任务特定示例，无需任务微调即可提升下游任务表现，但模型对提示选择敏感，因此如何选择优质示例是关键问题。
现有策略及不足：利用文本检索器选择与测试输入语义相似的示例是有效策略，但未考虑 LLM 对该任务的已有知识；且已有研究表明，示例配对的标签会影响模型预测。
假设：考虑 LLM 对任务的已有知识（尤其是输出标签空间）或能优化示例选择策略。
实验发现：在三个文本分类任务中，选择不仅语义相似、还能帮助解决测试示例固有标签模糊性的示例更有利；尤其纳入 LLM 先前误分类且处于测试示例决策边界的示例时，性能提升最显著。

IDEAL: Influence-Driven Selective Annotations Empower In-Context Learners in Large Language Models → ICLR 2024

Shaokun Zhang, Xiaobo Xia, Zhaoqing Wang, Ling-Hao Chen, Jiale Liu, Qingyun Wu, Tongliang Liu

背景：上下文学习依赖从大量标注示例中采样的提示词提升大语言模型性能，但该过程标注成本高。
方法：本文提出一种受影响力驱动的选择性标注方法，从大规模未标注数据池中筛选关键子集进行标注，用于后续提示词采样：
- 构建有向图表示未标注数据；
- 通过扩散过程量化候选未标注子集的影响力；
- 采用贪心算法，迭代选择能带来最大边际增益的数据。
优势：端到端运行，避免数据多样性与代表性的显式平衡难题，且有理论支持。
实验结果：在多个基准测试中表现更优，子集选择时耗时更低。

https://skzhang1.github.io/IDEAL/

ScatterShot: Interactive In-context Example Curation for Text Transformation → IUI 2023

Sherry Wu, Hua Shen, Daniel S Weld, Jeffrey Heer, Marco Tulio Ribeiro

背景：GPT-3 等大语言模型的上下文学习能力允许标注者通过少量示例定制模型以适应特定任务，但用户在设计示例时往往仅包含最明显的模式，导致上下文函数定义不足，在未见过的案例上表现不佳，且难以判断针对已知模式的示例是否 “足够”。
方案：提出交互式系统 ScatterShot，用于构建高质量的上下文学习演示集。其通过迭代将未标记数据分割为特定任务模式，以主动学习方式从未充分探索或未饱和的分割中采样信息丰富的输入，并借助大语言模型和当前示例集帮助用户更高效地标注。
效果：
- 模拟研究：在两个文本扰动场景中，ScatterShot 采样相比随机采样，使少样本函数性能提升 4-5 个百分点，且随着示例增加，方差更小。
- 用户研究：显著帮助用户覆盖输入空间的不同模式，更高效地标注上下文示例，提升上下文学习效果，同时减少用户工作量。

Diverse Demonstrations Improve In-context Compositional Generalization → ACL 2023

Itay Levy, Ben Bogin, Jonathan Berant

背景：上下文学习在训练集与测试集分布一致（i.i.d）的语义解析任务中表现优异，通常会使用与输入语句相似的示例作为提示。
问题：在组合泛化场景中（测试集输出结构为训练集所无），选择相似示例的方法不足，因往往没有足够相似的示例。
方法：提出一种选择多样化示例的方法，旨在共同覆盖输出程序所需的所有结构，以鼓励模型从这些示例中泛化到新结构。
结果：在三个组合泛化语义解析数据集上，将多样化示例与上下文学习结合，在纯上下文学习和结合微调的情况下，均显著提升了性能。

Finding Support Examples for In-Context Learning → EMNLP 2023

Xiaonan Li, Xipeng Qiu

核心问题：上下文示例间的强依赖性使其成为 NP 难组合优化问题，枚举所有排列不可行。
解决方案：提出 LENS（fiLter-thEN-Search）方法，分两阶段处理：
1. 过滤阶段：通过新指标 InfoScore（基于语言模型反馈评估示例的上下文信息量）和渐进式过滤过程，筛选出具有信息量的单个上下文示例。
2. 搜索阶段：采用多样性引导的示例搜索，迭代优化和评估所选示例排列，以找到能全面描述任务的示例。
实验结果：LENS 显著优于多种基线方法。

Misconfidence-based Demonstration Selection for LLM In-Context Learning → 2024

Shangqing Xu, Chao Zhang

背景：大语言模型（LLMs）的上下文学习能快速适配多种任务，但依赖精心选择演示样本，而现有方法要么需难获取的外部监督，要么与 LLMs 交互频繁、成本高。
方法：提出 “上下文反思（ICR）” 方法，通过减少 LLM 输出与实际输入 - 输出映射的差异来筛选演示样本。其流程为：从随机初始演示样本集出发，迭代优化 —— 每一步分析候选样本池，通过 “错误置信度” 指标识别最可能挑战 LLM 当前理解的样本，用这些样本替换当前集中信息价值较低的样本。
效果：在涵盖 13 个子任务的 5 个多样化数据集上的评估显示，ICR 有效。与现有方法相比，平均性能提升 4%，且跨任务泛化能力显著。

In-context Learning with Retrieved Demonstrations for Language Models: A Survey →TMLR 2024

Man Luo, Xin Xu, Yue Liu, Panupong Pasupat, Mehran Kazemi

大语言模型具备出色的少样本上下文学习（ICL）能力，能通过输入语境中的少量示例适应新任务，但该能力受示例选择影响较大。
最新进展是针对每个输入查询检索定制化示例，其实现借助现有数据库和检索系统，较为简便，且能提升学习效率与可扩展性，减少人工选例的偏见。
鉴于此领域研究成果与热度，本文对相关研究展开广泛综述，比较不同检索模型、训练流程及推理算法的设计选择。

Data Selection for Task-specific Fine-tuning

Data Pruning for Efficient Model Pruning in Neural Machine Translation → ACL 2023

Abdul Hameed Azeemi, Ihsan Qazi, Agha Raza

研究背景：模型剪枝能降低大规模预训练语言模型部署后的内存需求和推理时间，但剪枝过程计算密集，需反复训练和剪枝至目标稀疏度。
研究方法：将数据剪枝与移动剪枝结合，应用于神经机器翻译（NMT）以实现高效微调；利用单个训练样本的交叉熵分数设计数据集剪枝策略。
实验结果：在罗马尼亚语到英语、土耳其语到英语的机器翻译任务中，基于训练交叉熵分数选择难学样本（top - k）的方法优于其他数据集剪枝方法；数据剪枝减少了移动剪枝的收敛步骤和训练时间。
研究意义：通过系列实验剖析了训练数据在移动剪枝中的作用，揭示了 NMT 中数据剪枝与模型剪枝相互作用的新见解。

D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning → ICLR 2024

Adyasha Maharana, Prateek Yadav, Mohit Bansal

核心观点：高质量数据可降低模型测试误差，去除冗余数据能减少计算成本，数据集核心集选择（数据剪枝）旨在挑选子集以最大化模型性能。
现有方法问题：基于几何的数据选择（最大化多样性）偏向简单样本，基于训练动态的难度评分选择会忽略模型训练必需的简单样本，二者需结合。
提出方法：将数据集表示为无向图，提出 D2 剪枝算法，通过正向和反向消息传递更新样本难度评分（融入邻居样本难度），指导基于图的采样，选出兼具多样性和难度的核心集。
实验结果：在多种视觉和语言数据集上，监督和自监督版本的 D2 剪枝在高达 70% 的剪枝率下优于现有最优方法；用于过滤大型多模态数据集时，能增加数据集多样性并提升预训练模型的泛化能力。

https://github.com/adymaharana/d2pruning

Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data → NeurIPS 2023

Alon Albalak, Colin Raffel, William Yang Wang

研究背景：小样本学习（Few-shot learning）在实际应用中价值显著，但在少量标记数据上训练出可泛化模型且不过拟合颇具挑战；聚焦带辅助数据的小样本学习（FLAD）范式，其通过利用辅助数据提升泛化能力。
现有问题：以往自动混合辅助数据与目标数据的方法，计算复杂度随辅助数据集数量呈线性（或更差）增长，实用性受限。
研究方法：将 FLAD 与多臂老hu机机中的 “探索 - 利用” 困境关联，提出 EXP3 - FLAD 和 UCB1 - FLAD 算法，计算复杂度与辅助数据集数量无关。
实验结果：新方法优于所有现有 FLAD 方法，性能提升 4%；首次实现 30 亿参数语言模型性能超过 1750 亿参数的 GPT - 3。
研究意义：为 FLAD 探索更优、更高效的混合策略，可能成为大幅提升小样本学习泛化能力的可行路径。

Data-Efficient Finetuning Using Cross-Task Nearest Neighbors →Findings 2023

Hamish Ivison, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi

背景：获取带标签数据训练模型成本高，现有研究表明基于多任务数据及任务描述（提示词）训练模型，可有效将知识迁移至新任务。
方法：假设能获取少量（32 - 1000 个）目标任务无标签样本，利用这些样本从带提示词的大型多任务数据池中检索最相似的带标签样本，再基于这些跨任务近邻样本微调模型。
效果：
- 相比在均匀采样的带提示词多任务数据上微调（如 FLAN、T0），该方法数据效率更高。
- 仅使用 P3 数据池 2% 的数据（无目标任务标签数据），在 14 个代表未见过任务（含法律和科学文档问答）的数据集里，有 12 个数据集上的模型性能超过用全部数据训练的强基线 3 - 30%。
- 基于 SuperNaturalInstructions 的跨任务近邻样本（约占数据池 5%）训练的模型，在该数据池 12 个未见过任务上性能与最先进模型相当。
- 该方法生成的模型作为目标任务少样本微调的初始模型，效果优于单一多任务微调模型，在 8 个数据集上相对 T0 - 3B 少样本微调模型提升 2 - 23%。

https://github.com/allenai/data-efficient-finetuning

Make Every Example Count: On the Stability and Utility of Self-Influence for Learning from Noisy NLP Datasets → EMNLP 2023

Irina Bejan, Artem Sokolov, Katja Filippova

现状：大型数据集是推动 NLP 技术进步的常规要素，但数据质量已成为进一步提升的瓶颈。
问题：现代数据集的多样性和规模使得标准数据过滤难以直接应用，原因在于有害数据具有多面性，且通用的过滤规则难以在多任务中适用。
研究内容：基于最新的自影响计算和自动课程学习方法，研究训练样本的任务无关自影响分数在数据清洗中的适用性，分析其捕捉自然出现的异常值的效果，并探究基于自影响的数据清洗在多大程度上能提升机器翻译、问答和文本分类等下游任务的性能。

LESS: Selecting Influential Data for Targeted Instruction Tuning → ICML 2024

Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen

背景：指令微调为大语言模型（LLMs）带来强大能力，但实际应用需特定技能（如推理），如何从海量数据中筛选相关数据以培养特定能力（即目标指令微调）是一大挑战。
方案：提出 LESS 算法，通过低秩梯度相似性搜索（Low-rank gradiEnt Similarity Search）估算数据影响力，适配 Adam 优化器和变长指令数据；先构建含低维梯度特征、可复用且可迁移的梯度数据存储库，再基于与体现特定能力的少样本示例的相似性筛选数据。
实验结果：
- 用 LESS 筛选的 5% 数据训练，在多种下游任务中常能优于全量数据训练效果。
- 筛选数据可迁移性强：小模型能为大模型及不同系列模型筛选有用数据。
定性分析：该方法不仅依赖表面形式线索，还能识别体现下游应用所需推理技能的数据。

https://github.com/princeton-nlp/LESS

TSDS: Data Selection for Task-Specific Model Finetuning → NeurIPS 2024

Zifan Liu, Amin Karbasi, Theodoros Rekatsinas

研究背景：针对特定任务微调基础模型是现代机器学习的新兴范式，其效果很大程度上依赖于训练数据的选择。
提出方法：提出 TSDS（任务特定数据选择）框架，以目标任务中少量有代表性的示例为指导选择微调数据。
方法核心：将数据选择转化为优化问题，基于最优传输的分布对齐损失捕捉所选数据与目标分布的差异；添加正则化项鼓励所选数据的多样性，并融入核密度估计减少候选数据中近重复项的负面影响。
算法设计：将优化问题与最近邻搜索关联，基于近似最近邻搜索技术设计高效算法求解最优解。
实验结果：在语言模型的持续预训练和指令微调数据选择上进行评估，结果显示，使用 TSDS 方法选择的 1% 比例数据进行指令微调，常优于使用完整数据集，且平均 F1 分数比基线选择方法高 1.5 个百分点。

https://github.com/ZifanL/TS

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining → NeurIPS 2023

Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu, Yifeng Lu, Percy Liang, Quoc V Le, Tengyu Ma, Adams Wei Yu

研究背景：预训练数据的领域混合比例对语言模型性能影响显著。
提出方法：Domain Reweighting with Minimax Optimization（DoReMi），先通过领域上的组分布鲁棒优化（Group DRO）训练小型代理模型，生成无需下游任务知识的领域权重，再据此重采样数据集并训练更大的全尺寸模型。
实验情况：
- 用 2.8 亿参数的代理模型为 80 亿参数模型（大 30 倍）设置领域权重，提升训练效率。
- 在 The Pile 上，DoReMi 提高所有领域的困惑度，即使降低某领域权重。
- 相比用 The Pile 默认领域权重训练的基线模型，DoReMi 将平均少样本下游准确率提升 6.5 个百分点，且用 2.6 倍更少的训练步骤达到基线准确率。
- 在 GLaM 数据集上，无下游任务知识的 DoReMi 性能甚至与用下游任务调优的领域权重相当

DOGE: Domain Reweighting with Generalization Estimation → ALOE 2023

Simin Fan, Matteo Pagliardini, Martin Jaggi

核心问题：预训练数据的覆盖范围和组成显著影响大语言模型的泛化能力，而现有方法缺乏优化领域权重以提升泛化的系统性方式。
提出方法：DOmain reweighting with Generalization Estimation（DoGE），基于梯度的泛化估计函数评估各领域对最终泛化目标的贡献，以此重新调整各领域的采样概率。
实施步骤：
1. 训练小规模代理模型，通过 min-max 优化获取重新加权的领域权重；
2. 每一步通过镜像下降更新领域权重，以最大化整体泛化增益；
3. 用所得领域权重训练更大规模的全尺寸语言模型。
效果：
1. 在 SlimPajama-6B 数据集上，以通用泛化为目标时，DoGE 提升了平均困惑度和零样本推理准确率；
2. 在域外翻泛化任务中，大幅降低了目标域的困惑度；
3. 进一步采用参数选择方案，提高了泛化估计的效率。

posted @ 2025-07-31 16:48 别关注我了，私信我吧阅读(251) 评论(0) 收藏举报

刷新页面返回顶部

xxai