基于Output Distribution的一种数据污染探测方法

Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models

摘要：
在当前LLM训练数据不透明，模型黑盒，合成数据增加，作者提出CDD（Contamination Detect via Output Distribution）识别LLM output peakness进而探测数据污染现象和TED（Trustworthy Evaluation via Output Distribution）的LLM output correction。同时作者提出DETCON和COMIEVAL的数据集用于数据污染探测和污染评估任务

一. Introduction

问题：LLM能力的提升究竟是generalization还是memorization
两种数据污染场景：

现有Benchmark Datasets：由于大量的text quotes、代码重用、数据合成，已经学习到LLM中
upcoming benchmark：由于不了解LLM训练细节，构建的数据可能已经在训练集中

数据污染处理难点：

Opaque Training Data：数据不公开和全面
Black Box Models：参数和输出token概率的不可见性
Proliferation of Syntheic Data：测试数据的变体可能引入到训练数据中
作者提出CDD（识别数据污染）和TED（缓解数据污染）的方法

二. Motivation Example

assets/基于Output Distribution的一种数据污染探测方法/file-20250715152542390.png
作者基于这样一个发现：当给定pair {x, y}时（x为input prompt，y为answer）时，若该样本未被污染，采样多个output分布会更为平滑。而若该样本被污染，采样多个output会明显存在峰值，且容易集中到y上

三. Methodology

3.1 Edit Distance Distribution

assets/基于Output Distribution的一种数据污染探测方法/file-20250715152840519.png
这里的ED其实就是将字符级的编辑距离推广到token级别
之后，给定LLM，基于采样\(S ={s_1,s_2,...,s_n}\)的output集合，并定义output的密度函数如下：
相当于衡量编辑距离为d的样本对有多少个，若p(0)占比较大的话，说明output分布较为集中

3.2 CDD for Data Contamination Detection

给定测试数据 {x, y} 判断是否被污染，基于上述得到变体：
assets/基于Output Distribution的一种数据污染探测方法/file-20250715153006092.png
然而考虑到模型可能是基于y的变体而不是y本身进行训练，进一步修改：
其中\(s_{t=0}\)为设置temperature=0得到的输出，这样得到新的密度函数
同时设置超参数\(\alpha\),有： assets/基于Output Distribution的一种数据污染探测方法/file-20250715153023586.png
如果output样本明显向\(s_{t=0}\)集中时（即与\(s_{t=0}\)编辑距离较小的样本更多），则认为是污染，否则是未被污染：
整体的workflow：

3.3 TED for Contamination Mitigation Evaluation

通过在output剔除与\(s_{t=0}\)相似样本（峰值样本）和去重来减少污染程度

Exclude Peakedness
Remove Duplicates

最终通过挑选两个样本集合的交集用于LLM的Evaluation，从而减少数据污染对LLM Evaluation带来的影响

四. Experiment

4.1 Dataset

数据集构建： assets/基于Output Distribution的一种数据污染探测方法/file-20250715153241048.png
两种污染方法：explict/implicit ，三种不同的学习率
四种Mixing Ratio和21中不同程度的污染Occurrences，并基于LoRA实现LLM fine-tune
DETCON
包括2224条任务，随机从leaked dataset选择样本，occurrence 0表示未污染，occurrence 1表示污染
COMIEVAL
包括560条任务和对应的（污染，非污染）模型，要求评估污染模型的性能，并尝试减少数据污染对模型的影响

4.2 Data Contamination Detection

Baseline：1) N-Gram：13 gram （char-level和token-level）
2）Embedding Similarity：基于base model的embedding计算相似度
3）Perplexity：计算original answer的困惑度
4）Min-k% Prob：计算minimum k% token概率
5）LLM Decontaminator：用其他的LLM衡量相似度
assets/基于Output Distribution的一种数据污染探测方法/file-20250715153302045.png

assets/基于Output Distribution的一种数据污染探测方法/file-20250715153321000.png
The Effect of CDD:
CDD在显性污染和隐形污染探测中都取得了比较好的效果
超参数设置：

在更好的选择超参数\(\alpha\)和\(\xi\)上，存在进一步提升的空间

4.3 Contamination Mitigation Evaluation

Experimental Setup: 在不同的学习率，LLMs，mixing ratios和contamination forms
assets/基于Output Distribution的一种数据污染探测方法/file-20250715153358337.png
TED策略可以稳步减轻由于不同设置导致的数据污染带来的LLM效果提升
同时TED方法不会减轻未污染模型的性能

4.4 Real-World Application

Experimental Setup:

CodeForces2305: 90个最简单的编程问题，May 2023在ChatGPT训练deadline之后
HumanEval_R：HumanEval变体，将function signature变换为German, French和Chinese

可以发现ChatGPT在不断训练的过程中，Avg. Peak和CR在不断增加

Data Contamination Detection:
最早期GPT-3提出的13-gram方法
Min-k% Prob：计算前k%最小的token probability
Perplexity：计算生成文本的困惑度
依赖于概率分布
LLM Decontaminator：基于先进LLM检测测试数据和训练数据的相似性

总结：简单但是比较有趣的方法

posted @ 2025-07-15 15:22 zjz2333 阅读(36) 评论(0) 收藏举报

刷新页面返回顶部

zjz2333

zjz2333

阅读思考实践总结

基于Output Distribution的一种数据污染探测方法

一. Introduction

二. Motivation Example

三. Methodology

3.1 Edit Distance Distribution

3.2 CDD for Data Contamination Detection

3.3 TED for Contamination Mitigation Evaluation

四. Experiment

4.1 Dataset

4.2 Data Contamination Detection

4.3 Contamination Mitigation Evaluation

4.4 Real-World Application

公告

zjz2333

阅读 思考 实践 总结

基于Output Distribution的一种数据污染探测方法

一. Introduction

二. Motivation Example

三. Methodology

3.1 Edit Distance Distribution

3.2 CDD for Data Contamination Detection

3.3 TED for Contamination Mitigation Evaluation

四. Experiment

4.1 Dataset

4.2 Data Contamination Detection

4.3 Contamination Mitigation Evaluation

4.4 Real-World Application

五. Related Work

公告

阅读思考实践总结