数据增强技术

数据增强技术已经是图像领域的标配，通过对图像的翻转、旋转、镜像、高斯白噪声等技巧实现数据增强。

一个是加噪，另一个是回译，均为有监督方法。加噪即为在原数据的基础上通过替换词、删除词等方式创造和原数据相类似的新数据。回译则是将原有数据翻译为其他语言再翻译回原语言，由于语言逻辑顺序等的不同，回译的方法也往往能够得到和原数据差别较大的新数据。

1、加噪

EDA github repo提出了在NLP领域四种简单的操作来进行数据增强，以防止过拟合，并提高模型的泛化能力。下面进行简单的介绍:

1. 同义词替换（SR: Synonyms Replace）：不考虑stopwords，在句子中随机抽取n个词，然后从同义词词典中随机抽取同义词，并进行替换。

2. 随机插入(RI: Randomly Insert)：不考虑stopwords，随机抽取一个词，然后在该词的同义词集合中随机选择一个，插入原句子中的随机位置。该过程可以重复n次。

3. 随机交换(RS: Randomly Swap)：句子中，随机选择两个词，位置交换。该过程可以重复n次。

4. 随机删除(RD: Randomly Delete)：句子中的每个词，以概率p随机删除。

2、回译

在这个方法中，我们用机器翻译把一段中文翻译成另一种语言，然后再翻译回中文。

Eg: “周杰伦是一位华语乐坛的实力唱将，他的专辑卖遍了全球。" —>“Jay Chou is a strength singer in the Chinese music scene, his albums are sold all over the world.”—>“周杰伦是中国音乐界的优秀歌手，他的专辑畅销全世界。”

这个方法已经成功的被用在Kaggle恶意评论分类竞赛中。反向翻译是NLP在机器翻译中经常使用的一个数据增强的方法，其本质就是快速产生一些翻译结果达到增加数据的目的。

回译的方法往往能够增加文本数据的多样性，相比替换词来说，有时可以改变句法结构等，并保留语义信息。但是，回译的方法产生的数据依赖于翻译的质量，大多数出现的翻译结果可能并不那么准确。如果使用某些翻译软件的接口，也可能遇到账号限制等情况。

posted on 2022-02-14 10:59 enhaofrank 阅读(947) 评论(0) 收藏举报

刷新页面返回顶部

enhaofrank