[LIMA] LIMA: Less Is More for Alignment | 数据质量研究

论文信息

论文标题:LIMA: Less Is More for Alignment
论文作者:周春婷、刘鹏飞、徐普新、斯里尼·艾耶、孙娇、毛宇宁、马学哲、阿维亚·埃弗拉特、余萍、余丽丽、苏珊·张、加尔吉·戈什、迈克·刘易斯、卢克·泽特勒莫耶、奥默·利维
论文来源:NeurIPS 2023
论文地址:link
论文代码:link

Abstract

  主要围绕大语言模型训练的两个阶段(无监督预训练、大规模指令微调与强化学习)的相对重要性展开,通过训练 LIMA 模型进行验证,具体总结如下:

  1. 大语言模型训练阶段:分为从原始文本进行无监督预训练(目的是学习通用表征),以及大规模指令微调与强化学习(目的是更好契合终端任务与用户偏好);
  2. LIMA 模型情况:基于 650 亿参数的 LLaMa 语言模型训练而成,仅用 1000 个精心策划的提示和回复,通过标准监督损失微调,未涉及强化学习或人类偏好建模;
  3. LIMA 模型表现:
    1. 能从少数训练示例中学会遵循特定回复格式,可应对规划旅行行程、推测历史演变等复杂查询。
    2. 对训练数据中未出现的未知任务,往往具有良好泛化能力。
    3. 在人类评估研究中,43% 的情况下其回复与 GPT-4 相当或更受青睐,与 Bard 相比这一比例达 58%,与经人类反馈训练的 DaVinci003 相比为 65%。
  4. 结论:大语言模型的几乎所有知识都在预训练阶段习得,有限的指令微调数据即可教会模型生成高质量输出;

1 Introduction

  LLM 训练通常包含两步:

    1. 预训练:模型先在大语料库上进行无监督的预训练,以获得常规的语言理解和生成能力;
    2. 对齐:使用一些带标签的数据对模型进行微调
      • 指令微调(Instruction Tuning)
      • RLHF(Reinforcement Learning with Human Feedback)

  假设:大模型在预训练阶段已习得几乎所有的知识与核心能力,而对齐阶段的作用,则是让模型掌握与用户交互的方式和风格,从而确保其已具备的能力能够被准确、恰当地展现出来。

  数据集的准备:团队精心构建了一个包含 1000 个样本(750个来自社区,250 个为人工专门创作)的训练数据集,样本形式为 prompt-response(提示 - 响应)结构,采用标准的监督损失微调 LLaMa 65B 模型;

  样本的特点:

    • prompt 设计:形式多样,且模拟真实用户的提问场景与表达习惯;
    • response 设计:回答质量高,风格统一采用 “a helpful AI assistant”(乐于助人的 AI 助手)的口吻。
  在样本构成上,1000 个样本中 750 个源自三个社区论坛的真实场景提炼,其余 250 个为人工专门创作,以确保数据的多样性与针对性。

  社区论坛样本(共 750 个)

    • Stack Exchange:这是一个按话题细分的社区平台(每个话题对应一个 “exchange”),其中以 Stack Overflow 最为知名。样本选取自 75 个核心 exchange 及 99 个其他 exchange,均为高分内容 —— 仅保留标题作为 prompt,匹配对应的高分回答作为 response。  
    • wikiHow:作为综合性问答社区,样本通过分层抽样获取:先从 19 个内容类别中随机抽取,再从抽中类别内选取文章,以确保多样性。最终以文章标题为 prompt,正文部分为 response。
    • Pushshift Reddit Dataset:聚焦两个子版块的高赞内容:r/AskReddit 的问题被用作测试集 prompt,r/WritingPrompts 的内容则纳入训练集。  

  人工创作样本(共 250 个)

    其中 200 个为原创内容,50 个改编自 Super-Natural Instructions 数据集。在 200 个原创样本的创作中,作者采用统一口吻(“a helpful AI assistant”,即 “一个乐于助人的 AI 助手”),并包含少量恶意 prompt 及对应的对抗性 response。研究发现,统一口吻可显著提升模型表现,其作用类似 “let's think step by step”(“让我们一步步思考”)类提示词,能引导模型形成思维链(chain of thought),助力推理过程的结构化呈现。

  image

2 Training LIMA

  • 模型与训练集:基于 LLaMa 65B,使用 1000 条示例的对齐训练集进行微调。
  • 特殊标记:引入 EOT(end-of-turn)标记区分用户与助手发言,功能同 EOS 但避免歧义。
  • 超参数:特殊设置:采用残差 dropout,底层 p_d=0.0,顶层线性升至 0.3(小模型为 0.2)。
    • 优化器:AdamW(β₁=0.9,β₂=0.95,权重衰减 0.1)。
    • 学习率:初始 1e-5,无预热,线性衰减至 1e-6,共训练 15 个 epoch。
    • 批次大小:32(小模型为 64),文本长度超 2048 tokens 则截断。
  • 特殊设置:采用残差 dropout,底层 $p_d=0.0$,顶层线性升至 0.3(小模型为 0.2)。
  • checkpoint 选择:因困惑度与生成质量无关,从 5-10 epoch 中结合 50 条示例的开发集手动选择。

3 Human Evaluation

评估方法(Methodology)

  • 评估内容呈现:在每一步评估中,向标注者展示一个单一提示(prompt)以及由不同模型生成的两个可能回复(responses)。
  • 标注任务要求:标注者需判断哪一个回复更优,或两个回复之间无显著差异(具体表述详见附录 C)。
  • 平行标注设置:同时让 GPT-4 按照与人类标注者完全相同的指令和数据进行标注,以获取平行的评估结果。

标注者间一致性(Inter-Annotator Agreement)

  • 计算方式:采用 “平局折扣准确率”(tie-discounted accuracy):
    • 若两位标注者意见完全一致,得 1 分;
    • 若仅一方将结果标注为 “平局”(另一方有明确倾向),得 0.5 分;
    • 若双方意见完全冲突(无平局情况),得 0 分。
  • 评估数据集:基于 50 个随机选取的标注示例,每个示例包含一个单一提示和两个模型回复。
  • 评估数据集:基于 50 个随机选取的标注示例,每个示例包含一个单一提示和两个模型回复。
  • 一致性结果:
    • 人类标注者之间:
      • 大众标注者与大众标注者:82%;
      • 大众标注者与作者标注者:81%;
      • 作者标注者与作者标注者:78%。  
    • GPT-4 与人类标注者之间:
      • 大众标注者与 GPT-4:78%;
      • 作者标注者与 GPT-4:79%。  

  结果表明,尽管该任务存在一定主观性,但人类标注者之间具有良好的一致性。GPT-4 的标注表现与人类标注者相当,基本通过了该任务的 “Turking Test”(即机器标注质量可媲美人类标注)。

对比评估准则

  对于训练好的LIMA模型,为测试集中的每一个prompt生成一个回答,并通过两种方式进行评估:

  1. 绝对评估。对每一个 prompt 生成的 response 的质量通过人工和GPT-4进行评判。根据 response 的质量,分为 Fail, Pass 及 Excellent 三种级别。
  2. 将 LIMA 与其他模型进行两两比较:对于一个 prompt,双方各自生成一个 response,然后比较生成的response的质量。

绝对评估的结果如下图所示:

  image

  从图中可以看出,对于测试集中绝大部分的 prompt,其response皆为Excellent 或者 Pass,说明LIMA的效果不错。

将 LIMA 与其他模型进行两两比较

  image

  左右子图分别呈现人类偏好评估与 GPT-4 评估结果,显示 LIMA 的效果优于训练数据量远超于它、且 DaVinci003 还经 RLHF 微调的 Alpaca 65B 及 DaVinci003,该结果支持了上文假设。

消融实验

  1. 研究目的:通过消融实验探究训练数据的多样性、质量和数量的影响。
  2. 核心发现:在模型对齐方面,增加输入多样性和输出质量有显著积极作用,仅增加数量则未必。
  3. 实验设置:基于 7B 参数的 LLaMa 模型微调,控制超参数一致;对每个测试集提示生成 5 个回应,由 ChatGPT(GPT-3.5 Turbo)按 1-6 分李克特量表评估有用性,结果报告平均分及 95% 双侧置信区间。

 

  多样性:为测试提示多样性的影响,在控制质量和数量的情况下,对比了经质量过滤的 Stack Exchange 数据(提示异质、回应优质)与 wikiHow 数据(提示同质、回应优质)的训练效果。从两者各选取 2000 个训练样本,结果(图 5)显示,多样性更高的 Stack Exchange 数据使模型表现显著更优,但需注意两数据源可能存在其他干扰因素。

  质量:从 Stack Exchange 选取 2000 个无质量或风格过滤的样本,与经过滤样本训练的模型对比。图 5 显示,两者存在显著的 0.5 分差异。

  数量:从 Stack Exchange 选取呈指数增长的训练集进行测试。如图 6 所示,意外发现将训练集规模翻倍并未提升回应质量。

  image

  • 数据多样性影响:控制质量和数量,对比训练于高质量但提示同质化的 wikiHow 数据与高质量且提示多样化的 Stack Exchange 数据的 7B 模型,发现后者性能显著更高。
  • 数据质量影响:对比训练于经过质量筛选和未筛选的 Stack Exchange 数据(各 2000 个示例)的 7B 模型,前者性能明显更优,差距达 0.5 分。
  • 数据数量影响:使用质量筛选后的 Stack Exchange 数据,以指数级增加训练示例数量(2K 到 32K)训练 7B 模型,发现性能并未随数量增加而提升,反而趋于平稳。

 

posted @ 2025-07-29 15:40  Blairs  阅读(40)  评论(0)    收藏  举报
Live2D