卷积是特殊的二维MLP

什么是卷积

🧠 一、核心思想:卷积是特殊的二维 MLP

✅ 卷积的两个关键归纳偏置(Inductive Bias)

  1. 平移不变性(Translation Invariance)
    • 同一个特征检测器可以在图像的不同位置使用。
    • 数学上体现为:权重张量 \(\mathbf{V}\) 不依赖于位置 \((i, j)\),即 \([\mathsf{V}]_{i,j,a,b} = [\mathbf{V}]_{a,b}\)
    • 总结:不管检测对象出现在图像中的哪个位置,神经网络的前面几层应该对相同的图像区域具有相似的反应,即为“平移不变性”。
  2. 局部性(Locality)
    • 每个输出只由输入的一个局部区域决定。
    • 数学上体现为:在某个范围外的权重设为0,如 \(|a| > \Delta\)\(|b| > \Delta\)\([\mathbf{V}]_{a,b} = 0\)
    • 总结:神经网络的前面几层应该只探索输入图像中的局部区域,而不过度在意图像中相隔较远区域的关系,这就是“局部性”原则。最终,可以聚合这些局部特征,以在整个图像级别进行预测。

📐 二、从全连接到卷积的数学演变

📌 原始全连接形式(四维权重张量)

首先,多层感知机的输入是二维图像\(\mathbf{X}\),其隐藏表示\(\mathbf{H}\)在数学上是一个矩阵,在代码中表示为二维张量。
其中\(\mathbf{X}\)\(\mathbf{H}\)具有相同的形状。
为了方便理解,我们可以认为,无论是输入还是隐藏表示都拥有空间结构。

使用\([\mathbf{H}]_{i, j}\)表示隐藏中位置(\(i\),\(j\))处的像素。
为了使每个隐藏神经元都能接收到每个输入像素的信息,我们将参数从权重矩阵(如同我们先前在多层感知机中所做的那样)替换为四阶权重张量\(\mathsf{W}\)。假设\(\mathbf{U}\)包含偏置参数,我们可以将全连接层形式化地表示为

\[[\mathbf{H}]_{i, j} = [\mathbf{U}]_{i, j} + \sum_k \sum_l [\mathsf{W}]_{i, j, k, l} [\mathbf{X}]_{k, l} \]

这个公式表示每个输出位置 \((i, j)\) 都可能受到所有输入位置 \((k, l)\) 的影响,参数数量巨大。

注意里面的乘法是矩阵的按元素乘法

🔄 等价转换(引入偏移量 \(a = k - i\), \(b = l - j\)

\[[\mathbf{H}]_{i, j} = [\mathbf{U}]_{i, j} + \sum_a\sum_b [\mathsf{V}]_{i, j, a, b} [\mathbf{X}]_{i+a, j+b} \]

这是为了方便表达“以 \((i, j)\) 为中心”的操作。

✅ 加入平移不变性(权重共享)

\[[\mathbf{H}]_{i, j} = u + \sum_a\sum_b [\mathbf{V}]_{a, b} [\mathbf{X}]_{i+a, j+b} \]

此时权重 \(\mathbf{V}\) 是共享的,不再随位置变化,大大减少了参数数量。

✅ 加入局部性(限制求和范围)

\[[\mathbf{H}]_{i, j} = u + \sum_{a=-\Delta}^{\Delta} \sum_{b=-\Delta}^{\Delta} [\mathbf{V}]_{a, b} [\mathbf{X}]_{i+a, j+b} \]

这就是我们熟悉的卷积操作互相关操作(cross-correlation)。


🧮 三、卷积的数学定义回顾

对于离散情况:

\[(f * g)(i, j) = \sum_a\sum_b f(a, b) \cdot g(i - a, j - b) \]

这与上面的公式非常相似,只不过卷积中会对核进行翻转,而深度学习中的实现通常用的是互相关(cross-correlation),不翻转核。


📦 四、扩展到多个通道(Channel)

真实图像有多个通道(如 RGB),因此需要将卷积推广到三维张量。

  • 输入:\(\mathsf{X} \in \mathbb{R}^{H \times W \times C_{in}}\)
  • 权重(卷积核):\(\mathsf{V} \in \mathbb{R}^{k \times k \times C_{in} \times C_{out}}\)
  • 输出:\(\mathsf{H} \in \mathbb{R}^{H' \times W' \times C_{out}}\)

最终的卷积公式变为:

\[[\mathsf{H}]_{i,j,d} = \sum_{a=-\Delta}^{\Delta} \sum_{b=-\Delta}^{\Delta} \sum_c [\mathsf{V}]_{a, b, c, d} \cdot [\mathsf{X}]_{i+a, j+b, c} \]

其中:

  • \(c\): 输入通道索引
  • \(d\): 输出通道索引
  • \(a, b\): 局部空间偏移

🧱 五、为什么卷积神经网络(CNN)更高效?

特性 多层感知机(MLP) 卷积神经网络(CNN)
参数数量 非常大(全连接) 很小(局部+共享)
空间结构 忽略 显式建模
平移不变性
局部性
应用场景 表格数据 图像、视频等高维感知数据

📌 总结

卷积可以看作是一种具有平移不变性和局部性约束的特殊全连接层。这种结构上的归纳偏置使得CNN特别适合处理图像数据,在减少参数的同时保留了重要的空间信息。

这些特性共同构成了现代卷积神经网络的核心设计原则,也是它在计算机视觉任务中取得巨大成功的关键原因。

posted @ 2025-05-07 17:37  玉米面手雷王  阅读(43)  评论(0)    收藏  举报