计算机视觉-转置卷积
首先我们先说一个误区哈:
转置卷积不是卷积的逆运算
- 卷积层和汇聚层通常会减少下采样输入图像的空间维度(高和宽)
- 卷积通常来说不会增大输入的高和宽,要么保持高和宽不变,要么会将高宽减半,很少会有卷积将高宽变大的
- 可以通过 padding 来增加高和宽,但是如果 padding 得比较多的话,因为填充的都是 0 ,所以最终的结果也是 0 ,因此无法有效地利用 padding 来增加高宽
- 如果输入和输出图像的空间维度相同,会便于以像素级分类的语义分割:输出像素所处的通道维可以保有输入像素在同一位置上的分类结果(为实现输入和输出的空间维度的一致,在空间维度被卷积神经网络层缩小后,可以使用转置卷积增加上采样中间层特征图的空间维度)
- 卷积一般是做下采样,将高宽变得更小;转置卷积通常用作上采样,将输入的高宽变大
语义分割的问题在于需要对输入进行像素级别的输出,但是卷积通过不断地减小高宽,不利于像素级别的输出,所以需要另外一种卷积能够将高宽变大:转置卷积。
- 转置卷积可以用来增大输入的高和宽
工作原理
转置卷积的工作原理有点类似于卷积

假设有一个 2×2 的输入和一个 2×2 的核
这个核会在输入上以步幅为 1 进行滑动且没有填充,对于输入的每一个元素,它会跟核上的每一个元素按元素做乘法,然后逐次写回到对应的位置(写回到一个更大的矩阵中,除了写回的位置,其他元素初始化为 0 )
这样的话,输入有多少个元素,就会得到多少个乘积的结果(比输入更大的矩阵),最后将这些结果按元素位置进行相加,最终就能够得到输出了
上图中的 stride 为 1 (输入的相邻元素跟核按元素乘积的结果写回到更大的矩阵的对应位置时相隔 1 列),stride 如果特别大的话就能够将输出的高宽变得特别大,达到成倍地增加高宽的目的。它其实有点类似与卷积的逆运算。
填充
- 常规卷积中将填充应用于输入(如果将高和宽两侧的填充数指定为 1 时,常规卷积的输入中将增加第一和最后的行和列)
- 转置卷积中将填充应用于输出(如果将高和宽两侧的填充数指定为 1 时,转置卷积的输出中将删除第一和最后的行和列)
例如:
还是这个转置卷积:

当填充为0的时候就是输出这个
0 0 1
0 4 6
4 12 9
但是当填充为1的时候,就会将外面的一行进行消除掉,然后答案就只剩下一个
4

步幅
- 常规卷积中,步幅所指定的是卷积核在输入上的滑动距离
- 转置卷积中,步幅所指定的是卷积核每次运算结果写回到中间结果(输出)矩阵中对应位置的滑动距离,以下两张图是卷积核为 2 × 2 ,步幅分别为 1 和 2 的转置卷积运算

然后这个就是padding=2的卷积。
形状换算

假设输入高(宽)为 n ,核的大小为 k ,填充为 p ,步幅为 s
- 转置卷积的输出大小为 n' = sn + k - 2p - s (这里的 p 指的是上填充或者下填充,而没有将上下填充加起来)
- 如果考虑同样超参数的卷积,则卷积的输出大小为 n' = ⌊(n - k - 2p + s) / s⌋ ("⌊ ⌋"表示向下取整,所以在"⌊ ⌋"中的式子不被整除的情况下,n 如果增加一点是不会影响输出的,所以卷积中的 n 如果增加的话,可能会导致最终的输出 n’ 不会有所变化) --(可以推出在做逆变换的时候)--> n >= sn' + k - 2p - s (在"⌊⌋"中的式子能够被整除的情况下等号成立,即逆变换的输出和转置卷积输出的计算方式相同)
如果想要使用转置卷积让高宽成倍增加,即 n' = sn ,所以 k - 2p - s ,应该等于 0 ,那么 k = 2p + s
- 在全连接卷积神经网络中 p 如何取值使得高宽增加 32 倍?已知窗口大小是 64 ,步幅为 32 ,由上式可以得到 p 的值为16 ,这就是为什么在 FCN 中 p 的值为 32
多通道
多通道
对于多输入和输出通道,转置卷积与常规卷积以相同的方式运作
为什么称之为“转置”
对于卷积\(Y = X * W\)
- "*"代表卷积
- 可以对 \(W\) 构造一个\(V\)(\(V\) 是一个比较大的向量),使得卷积等价于矩阵乘法 \(Y' = VX'\)
- 这里的 \(Y'\), \(X'\) 是 \(Y\), \(X\) 对应的向量版本(将\(Y,X\)通过逐行连结拉成向量)
- 如果\(X'\)是一个长为\(m\)的向量,\(Y'\)是一个长为\(n\)的向量,则\(V\)就是一个\(n \times m\)的矩阵
- 转置卷积同样可以对\(W\) 构造一个\(V\),则等价于\(Y' = V^TX'\)
按照上面的假设 \(V^T\) 就是一个\(m \times n\),则 X' 就是一个长为 n 的向量,\(Y'\)就是一个长为\(m\)的向量,\(X\)和\(Y\)的向量发生了交换
从\(V\)变成了\(V^T\)所以叫做转置卷积
所以如果卷积将输入从\((h,w)\)变成了\((h',w')\),则同样超参数(kernel size, stride, padding)的转置卷积则从\((h',w')\)变成\((h,w)\).

代码
基本操作
让我们暂时忽略通道,从基本的转置卷积开始,设步幅为1且没有填充。 假设我们有一个\(n_h \times n_w\)的输入张量和一个\(k_h \times k_w\)的卷积核。 以步幅为1滑动卷积核窗口,每行\(n_w\)次,每列\(n_h\)次,共产生\(n_hn_w\)个中间结果。 每个中间结果都是一个\((n_h + k_h - 1) \times (n_w + k_w - 1)\)的张量,初始化为0。 为了计算每个中间张量,输入张量中的每个元素都要乘以卷积核,从而使所得的\(k_h \times k_w\)张量替换中间张量的一部分。 请注意,每个中间张量被替换部分的位置与输入张量中元素的位置相对应。 最后,所有中间结果相加以获得最终结果。
例如, 下图解释了如何为的输入张量计算卷积核为的转置卷积

我们可以对输入矩阵X和卷积核矩阵K实现基本的转置卷积运算trans_conv。
def trans_conv(X, K):
h, w = K.shape
Y = torch.zeros((X.shape[0] + h - 1, X.shape[1] + w - 1))
for i in range(X.shape[0]):
for j in range(X.shape[1]):
Y[i: i + h, j: j + w] += X[i, j] * K
return Y
与通过卷积核“减少”输入元素的常规卷积相比,转置卷积通过卷积核“广播”输入元素,从而产生大于输入的输出。 我们可以通过上图来构建输入张量X和卷积核张量K从而验证上述实现输出。 此实现是基本的二维转置卷积运算。
这个实现的就是上面的例子
X = torch.tensor([[0.0, 1.0], [2.0, 3.0]])
K = torch.tensor([[0.0, 1.0], [2.0, 3.0]])
trans_conv(X, K)
tensor([[ 0., 0., 1.],
[ 0., 4., 6.],
[ 4., 12., 9.]])
或者,当输入X和卷积核K都是四维张量时,我们可以使用高级API获得相同的结果。
torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, bias=True)
in_channels (int) -输入信号的通道数
out_channels (int) - 卷积产生的通道数
kernel_size (int or tuple) - 卷积核的大小
stride (int or tuple, optional) - 卷积步长
padding (int or tuple, optional) - 输入的每条边补充0的层数
output_padding (int or tuple, optional) - 输出的每条边补充0的层数
dilation (int or tuple, optional) - 卷积核元素之间的间距
groups (int, optional) - 从输入通道到输出通道的阻塞连接数
bias (bool, optional) - 如果bias=True, 添加偏置
X, K = X.reshape(1, 1, 2, 2), K.reshape(1, 1, 2, 2)
tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, bias=False)
tconv.weight.data = K
tconv(X)
tensor([[[[ 0., 0., 1.],
[ 0., 4., 6.],
[ 4., 12., 9.]]]], grad_fn=<ConvolutionBackward0>)
填充、步幅和多通道
与常规卷积不同,在转置卷积中,填充被应用于的输出(常规卷积将填充应用于输入)。 例如,当将高和宽两侧的填充数指定为1时,转置卷积的输出中将删除第一和最后的行与列。
tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, padding=1, bias=False)
tconv.weight.data = K
tconv(X)
tensor([[[[4.]]]], grad_fn=<ConvolutionBackward0>)
在转置卷积中,步幅被指定为中间结果(输出),而不是输入。 使用上图中相同输入和卷积核张量,将步幅从1更改为2会增加中间张量的高和权重,因此输出张量在下图中。

tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, stride=2, bias=False)
tconv.weight.data = K
tconv(X)
tensor([[[[0., 0., 0., 1.],
[0., 0., 2., 3.],
[0., 2., 0., 3.],
[4., 6., 6., 9.]]]], grad_fn=<ConvolutionBackward0>)
对于多个输入和输出通道,转置卷积与常规卷积以相同方式运作。 假设输入有\(c_i\)个通道,且转置卷积为每个输入通道分配了一个\(k_h \times k_w\)的卷积核张量。 当指定多个输出通道时,每个输出通道将有一个\(c_i\times k_h\times k_w\)的卷积核。
同样,如果我们将\(\mathsf{X}\)代入卷积层\(f\)来输出\(\mathsf{Y}=f(\mathsf{X})\),并创建一个与\(f\)具有相同的超参数、但输出通道数量是\(\mathsf{X}\)中通道数的转置卷积层\(g\),那么\(g(Y)\)的形状将与\(\mathsf{X}\)相同。 下面的示例可以解释这一点。
X = torch.rand(size=(1, 10, 16, 16))
conv = nn.Conv2d(10, 20, kernel_size=5, padding=2, stride=3)
tconv = nn.ConvTranspose2d(20, 10, kernel_size=5, padding=2, stride=3)
tconv(conv(X)).shape == X.shape
True
与矩阵变换的联系
我们先看一个卷积的例子:

具体操作如下图所示,由于一个3X3的卷积核要在输入上不同位置卷积卷积4次,所以通过补0的方式,将卷积核分别置于一个4X4矩阵的四个角落,这样我们的输入可以直接和这四个4X4的矩阵进行卷积,而舍去了滑动操作。

进一步我们将输入拉成长向量,四个4X4的卷积核也进行拼接,如下图

我们记向量化的图像为\(I^{T}\) ,向量化的卷积矩阵为\(C\),输出特征向量为 \(O\).

浙公网安备 33010602011771号