Pytorch：transforms二十二种数据预处理方法及自定义transforms方法

数据增强

transforms是pytorch中用于数据增强的模块，首先再简单描述下数据增强的概念：

数据增强又称为数据增广，数据扩增，它是对训练集进行变换，使训练集更丰富，从而让模型根据泛化能力

举个非常生动形象的例子，五年高考三年模拟相信大家都知道，其实这就是一个学习模型，其中的三年模拟试题就是数据增强

具体的各类方法

裁剪 crop

transforms.CenterCrop

功能：从图像中心裁剪图片

size：所需裁剪的图片尺寸（如果size比原来的图尺寸大，则会在原图周围填充黑色带至此size）

或者

transforms.RandomCrop

功能：从图片中随机裁剪出尺寸为size的图片

size：所需裁剪图片尺寸

padding：设置填充大小

当为a时，上下左右均填充a个像素
当为(a,b)时，上下填充b个像素，左右填充a个像素
当为(a,b,c,d)时，左上右下各填充a、b、c、d个像素

pad_if_need：若图像小于设定size，则填充

padding_mode：填充模式，有4种模式

constant：像素值由fill设定
edge：像素值由图像边缘像素决定
reflect：镜像填充，最后一个像素不镜像
symmetric：镜像填充，最后一个像素镜像

fill：constant时，设置填充的像素值

transforms.RandomResizedCrop

功能：随机大小、长宽比裁剪图片

size：所需裁剪图片

scale：随机裁剪面积比例，默认（0.08, 1）

ratio：随机长宽比，默认（3/4, 4/3）

interpolation：插值方法

PIL.Image.NERAREST
PIL.Image.BILINEAR
PIL.Image.BICUBIC

transforms.FiveCrop

transforms.TenCrop

功能：在图像的上下左右以及中心裁剪出尺寸为size的5张图片，

TenCrop对这5张图片进行水平或者垂直镜像获得10张图片

size：所需裁剪图片尺寸

vertical_filp：是否垂直翻转（TenCrop）

翻转和旋转 flip and rotation

transforms.RandomHorizontalFlip

transforms.RandomVerticalFlip

功能：依概率水平（左右）或垂直（上下）翻转图片

p：翻转概率

transforms.RandomRotation

功能：随机旋转图片

degrees：旋转角度

当为a时，在（-a, a）之间选择旋转角度
当为（a, b）时，在（-a, b）之间选择旋转角度

resample：重采样方法

expand：是否扩大图片，以保持原来所有的图片信息（注意：如果使用expand，会扩大原来的图片size，当处理的batch_size不为1时，无法将之后图片统一形成batch，所以使用后，需要resize成原来的大小）

center：旋转点设置，默认中心旋转

图像变换 image transforms

transforms.Pad

功能：对图像边缘进行填充

padding：设置填充大小

当为a时，上下左右均填充a个像素
当为(a,b)时，上下填充b个像素，左右填充a个像素
当为(a,b,c,d)时，左上右下各填充a、b、c、d个像素

padding_mode：填充模式，有4种模式

constant：像素值由fill设定
edge：像素值由图像边缘像素决定
reflect：镜像填充，最后一个像素不镜像
symmetric：镜像填充，最后一个像素镜像

fill：constant时，设置填充的像素值，（R,G,B）or （Gray）【可以理解为用具体数值表示的color】

transforms.ColorJitter

功能：调整亮度、对比度、饱和度和色相

brightness：亮度调整因子

当为a时，从[max(0, 1-a), 1+a]中随机选择
当为(a, b)时，从[a, b]中随机选择

contrast：对比度参数，同brightness

对比度：调高：偏黑的更黑，偏白的更白；调低：发灰，因为黑白都趋近中间值

saturation：饱和度（强调色彩鲜艳或黯淡）参数，同brightness

hue：色相参数，改变图像原来的色彩，显得“违和”

当为a时，从[-a， a]中随机选择参数，注：0 <= a <= 0.5
当为(a, b)时，从[a, b]中随机选择参数，注：-0.5 <= a <= b <= 0.5

transforms.Grayscale

transforms.RandomGrayscale

功能：依概率将图像转换为灰度图

num_output_channels：输出通道数，只能设1或3

p：图像转为灰度图的概率，Grayscale即为RandomGrayscale的p为1时

transforms.RandomAffine

功能：对图像进行仿射变换。仿射变换是二维的线性变换，由五种基本原子构成，分别是旋转、平移、缩放、错切和翻转

degrees：旋转角度设置

translate：平移区间设置，如（a, b），a设置宽（width），b设置高（height），图像在宽维度平移的区间为±img_width*a之间

scale：缩放比例（以面积为单位）

fill_color：填充颜色设置

shear：错切角度设置，有水平错切和垂直错切（类似于平行四边形似的拉伸）

若为a，则仅在x轴错切，错切角度在（-a，a）之间
若为（a，b），则a设置x轴角度，b设置y轴角度
若为（a，b，c，d），则a，b设置x轴角度，c，d设置y轴角度

resample：重采样方式，即三类插值方式

transforms.Erasing

功能：对图像进行随机的遮挡，注意：输入对象为Tensor而不是PIL，需先使用ToTensor()

p：执行该操作的概率

scale：遮挡区域的面积

ratio：遮挡区域的长宽比

value：设置遮挡区域的像素值（颜色）,（R,G,B）或（Gray）而且此时对象为tensor，所以应该设置归一化值；如果设置value的值为字符串，则遮挡区域的颜色会变成彩色（雪花屏）

（具体算法可见论文《Data Augmentation Random Erasing》）

transforms.Lambda

功能：用户自定义lambda方法，用于简单实现函数功能

lambd：填写lambda匿名函数表达式

格式：lambda [arg1 arg2... argn] ：expression （arg为input，expression为进行的处理）

对transform方法的操作

transforms.RandomChoice

功能：从一系列transforms方法中随机挑选一个执行

transforms.RandomChoice([transforms1, transforms2, transforms3...])

transforms.RandomApply

功能：依据概率执行一组transforms操作

transforms.RandomApply([transforms1, transforms2, transforms3...]，p=0.5)

transforms.RandomOrder

功能：对一组transforms操作打乱顺序后执行

transforms.RandomOrder([transforms1, transforms2, transforms3...])

自定义transforms方法

从compose源码中可以得到，transforms有一些固定的收参与格式：

1.仅接受一个参数，返回一个参数

2.注意上下游的输出和输入

通过类实现多参数传入，下为自定义方法的基本结构：

其中init函数指定需要的参数，如概率、信噪比等等，call函数就是调用时，所执行的具体操作

下面以椒盐噪声的transforms方法自定义实现来为例：

椒盐噪声又称脉冲噪声，是一种随机出现的白点或黑点，白点称为盐噪声，黑点称为椒噪声

其主要参数有信噪比（signal-noise rate，SNR），用以衡量噪声的比例，在图像中为图像像素的占比

由上述模板可以构建函数思路：

附上代码可进一步理解

class AddPepperNoise(object):
    """增加椒盐噪声
    Args:
        snr （float）: Signal Noise Rate
        p (float): 概率值，依概率执行该操作
    """

    def __init__(self, snr, p=0.9):
        assert isinstance(snr, float) or (isinstance(p, float))
        self.snr = snr
        self.p = p

    def __call__(self, img):
        """
        Args:
            img (PIL Image): PIL Image
        Returns:
            PIL Image: PIL image.
        """
        if random.uniform(0, 1) < self.p:
            img_ = np.array(img).copy()
            h, w, c = img_.shape
            signal_pct = self.snr
            noise_pct = (1 - self.snr)
            mask = np.random.choice((0, 1, 2), size=(h, w, 1), p=[signal_pct, noise_pct/2., noise_pct/2.])
            mask = np.repeat(mask, c, axis=2)
            img_[mask == 1] = 255   # 盐噪声
            img_[mask == 2] = 0     # 椒噪声
            return Image.fromarray(img_.astype('uint8')).convert('RGB')
        else:
            return img

总之，数据增强是为了使得训练集更好的接近测试集，针对测试集的一些特点或是易混点来选择有效的transforms方法加以突出或是消除，以达到更好的结果。

一个简单例子，原模型的训练数据为第四套一元和一百元RMB，而现在测试的是第五套一百元人民币，如果不加变换，大概率会识别成一元，因为第四套一元和第五套一百元颜色很接近。这时如果做一个灰度变换，测试结果就会识别正确，判定为100元。

posted @ 2020-07-23 12:09 龙雪阅读(5679) 评论(0) 收藏举报

刷新页面返回顶部

龙雪的博客