卷积层输出形状的通用公式

在卷积神经网络中，输出形状的公式并非凭空而来，而是通过卷积操作的基本原理逐步推导得出的。

对于 3D 卷积，输出形状的每个维度（时间 $T$、高度 $H$、宽度 $W$）计算公式为：

\[\text{Output} = \left\lfloor \frac{\text{Input} + 2 \times \text{padding} - \text{kernel_size}}{\text{stride}} + 1 \right\rfloor \]

其中：

nn.Conv3d(
    in_channels=2, 
    out_channels=64, 
    kernel_size=(5,7,7), 
    stride=(2,4,4), 
    padding=(2,3,3)
)

输入形状：假设为视频光流数据，形状为 $(N, 2, T, H, W)$，例如 $(N, 2, 16, 256, 256)$。
各维度参数：
- 时间维度（第一维）：kernel_size=5, stride=2, padding=2
- 空间维度（高度和宽度）：kernel_size=7, stride=4, padding=3

时间维度（$T$）：

\[T_{\text{out}} = \left\lfloor \frac{16 + 2 \times 2 - 5}{2} + 1 \right\rfloor = \left\lfloor \frac{16 +4 -5}{2} +1 \right\rfloor = \left\lfloor \frac{15}{2} +1 \right\rfloor = \left\lfloor 7.5 +1 \right\rfloor = 8 \]
高度（$H$）：

\[H_{\text{out}} = \left\lfloor \frac{256 + 2 \times 3 -7}{4} +1 \right\rfloor = \left\lfloor \frac{256 +6 -7}{4} +1 \right\rfloor = \left\lfloor \frac{255}{4} +1 \right\rfloor = \left\lfloor 63.75 +1 \right\rfloor = 64 \]
宽度（$W$）：计算方式与高度相同，结果也是 $64$。

\[(N, 64, 8, 64, 64) \]

验证：输入 $(N, 2, 16, 256, 256)$ → 输出 $(N, 64, 8, 64, 64)$，与实际代码一致。

填充（Padding）的作用：
在输入周围添加零值，扩大可卷积区域。例如时间维度填充 2，意味着在时间序列前后各补 2 帧（共扩展 $2+2=4$ 帧），使得卷积核能完整覆盖输入的时间范围。
步幅（Stride）的影响：
控制卷积核滑动的间隔。例如时间维度步幅为 2，意味着每次滑动跳过 1 帧（实际移动步长为 2），直接减少输出长度。
向下取整的必要性：
当剩余空间不足以滑动卷积核时，舍弃边缘部分。例如若计算得到 $7.5$，实际有效卷积操作只能执行 7 次，余下部分被忽略。

约束条件：需满足 $ \text{Input} + 2 \times \text{padding} \geq \text{kernel_size} $。
示例：若输入时间维度为 3，而 kernel_size=5 且 padding=0，则 $3 +0 -5 =-2$，计算会得到负数，导致错误。

通过理解这些公式，你可以更灵活地设计卷积层的参数，精准控制特征图的空间-时间分辨率。

posted @ 2025-05-07 19:39 漫舞八月（Mount256）阅读(508) 评论(0) 收藏举报

刷新页面返回顶部

漫舞八月（Mount256）