[DoAug] Diversity-oriented Data Augmentation with Large Language Models | ACL 2025

论文信息

论文标题:Diversity-oriented Data Augmentation with Large Language Models
论文作者:王在田、张靖晗、张新皓、刘鲲鹏、王鹏飞、周元春
论文来源:ACL 2025
论文地址:link
论文代码:link

Abstract

  • 背景与问题:数据增强对提升 NLP 模型的鲁棒性和泛化能力很重要,但现有方法多关注增加样本数量,对样本分布多样性关注不足,可能导致模型过拟合。
  • 提出的方案:探究数据增强对数据集多样性的影响后,提出面向多样性的数据增强框架(DoAug)。具体是采用面向多样性的微调方法,将大语言模型训练成多样化释义生成器,再将其应用于选定的信息丰富的样本核心集,将生成的释义与原始数据整合,形成更具多样性的增强数据集。
  • 实验结果:在 12 个真实世界文本数据集上的实验显示,微调后的大语言模型增强器在保持标签一致性的同时提高了多样性,增强了下游任务的鲁棒性和性能,平均实现 10.52% 的性能提升,比亚军基线高出三个多百分点。

1 Introduction

  训练 NLP 模型的高质量数据集需具备三点:

    • 规模大:足够样本反映人类语言的多样性和复杂性,助力避免过拟合,提升模型对未见过数据的泛化能力、稳健性和可靠性。
    • 一致性:数据与标签的映射准确且一致,为模型提供可靠学习信息,保障任务结果的可重复性和模型预测的可解释性;不一致的数据集会干扰模型,降低其性能。
    • 多样性:确保 NLP 模型学习广泛的语言模式(原文未完成此点阐述)。

2 Framework

  image

  阶段 1:训练多样化的 LLM 释义器(LLM Paraphraser)

  1. 监督指令微调(SFT,Supervised Fine-Tuning)
    • 目标:让 LLM 学会在保留原始语义的前提下改写句子(即释义功能)。
    • 操作:使用释义数据集(如 ChatGPT Paraphrases 数据集)对预训练 LLM 进行微调。训练过程采用参数高效微调技术(PEFT)中的 LoRA 方法,冻结原始模型权重,仅更新低秩适配矩阵,以降低计算成本。
    • 输出:初步具备释义能力的 LLM,能够生成与输入句子语义相似但表达方式不同的文本。
  2. 基于偏好数据的 DPO 微调(Direct Preference Optimization)
    • 目标:增强 LLM 生成样本的多样性,避免重复或冗余。
    • 偏好数据集构建:从原始释义数据集中采样句子,为每个句子生成 5 个候选释义,通过计算嵌入空间的欧氏距离,筛选出 “最多样”(距离最大)的释义作为 “优选样本”,“最相似”(距离最小)的作为 “劣选样本”,形成偏好数据对($y_w$​,$y_l​$)。
    • DPO 训练:使用上述偏好数据集,通过 DPO 算法优化 LLM 的生成策略,最大化生成 “优选样本” 的概率,最小化生成 “劣选样本” 的概率。该过程无需额外训练奖励模型,直接通过损失函数(公式 6)调整模型参数。
    • 输出:具备高多样性生成能力的 LLM 释义器,既能保持语义一致性,又能生成丰富多样的表达方式。

  阶段 2:基于核心样本集的选择性数据增强

  该阶段针对目标数据集筛选高价值样本进行增强,平衡计算成本与增强效果,具体包括:

  1. 核心样本集(Coreset)选择
    1. 目标:识别数据集中最具信息量的样本,仅对其进行增强以降低成本。
    2. 操作:先在数据集上训练下游任务模型,同时收集训练动态与训练后指标。计算 EL2N、熵、方差和 AUM 分数,以此评估样本重要性。运用分数单调选择和以覆盖为中心的选择(CCS)推导核心集。DoAug 通过分层核心集选择操作:修剪低重要性样本,保留中等重要性样本,增强高重要性样本,且仅将高重要性样本作为数据增强的种子。。采用分层选择策略,将样本分为三类:
      • Saugment:高重要性样本,作为生成释义的种子;  
      • Sretain:中等重要性样本,直接保留无需增强;  
      • Sprune:低重要性样本,被剔除。  
    3. 比例:默认比例为 raugment:rretain:rprune=1:1:1。
  2. 生成与筛选多样化释义
    1. 生成:对Saugment中的每个样本,使用训练好的 LLM 释义器生成 K 个候选释义(默认 K=5)。
    2. 筛选:基于嵌入空间距离,仅保留与原始样本最具多样性的释义,避免冗余。
  3. 构建最终增强数据集
    • 将 Saugment​ 的原始样本及其筛选后的释义、Sretain的保留样本合并,形成最终的增强数据集 $\tilde{S}$

算法

image

3 Experiments

评估维度:包括多样性、亲和性及下游任务性能,分数越高效果越好。

  • 多样性评估:
    • 样本级潜在多样性:通过嵌入空间的成对欧氏距离和余弦相似度评估(距离、离散度);
    • 数据集级潜在多样性:通过所有样本嵌入的覆盖度和均匀性评估(等值线半径、同质性);
    • 词汇多样性:通过数据集中不同词语的数量评估(词汇量、独特 3-grams)。
  • 亲和性评估:通过嵌入偏差体现增强数据集与原始数据集的连贯性。
  • 下游任务性能评估:在原始和增强数据集上训练带分类头的 BERTbase 模型,以预测准确率衡量性能。

 

Prediction accuracy

image

diversity metrics

image

 

 

image

 

posted @ 2025-07-30 20:51  Blairs  阅读(66)  评论(0)    收藏  举报
Live2D