卷积是特殊的二维MLP

什么是卷积

🧠 一、核心思想：卷积是特殊的二维 MLP

✅ 卷积的两个关键归纳偏置（Inductive Bias）

平移不变性（Translation Invariance）
- 同一个特征检测器可以在图像的不同位置使用。
- 数学上体现为：权重张量 \(\mathbf{V}\) 不依赖于位置 \((i, j)\)，即 \([\mathsf{V}]_{i,j,a,b} = [\mathbf{V}]_{a,b}\)。
- 总结：不管检测对象出现在图像中的哪个位置，神经网络的前面几层应该对相同的图像区域具有相似的反应，即为“平移不变性”。
局部性（Locality）
- 每个输出只由输入的一个局部区域决定。
- 数学上体现为：在某个范围外的权重设为0，如 \(|a| > \Delta\) 或 \(|b| > \Delta\) 时 \([\mathbf{V}]_{a,b} = 0\)。
- 总结：神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远区域的关系，这就是“局部性”原则。最终，可以聚合这些局部特征，以在整个图像级别进行预测。

📐 二、从全连接到卷积的数学演变

📌 原始全连接形式（四维权重张量）

首先，多层感知机的输入是二维图像\(\mathbf{X}\)，其隐藏表示\(\mathbf{H}\)在数学上是一个矩阵，在代码中表示为二维张量。
其中\(\mathbf{X}\)和\(\mathbf{H}\)具有相同的形状。
为了方便理解，我们可以认为，无论是输入还是隐藏表示都拥有空间结构。

使用\([\mathbf{H}]_{i, j}\)表示隐藏中位置（\(i\),\(j\)）处的像素。
为了使每个隐藏神经元都能接收到每个输入像素的信息，我们将参数从权重矩阵（如同我们先前在多层感知机中所做的那样）替换为四阶权重张量\(\mathsf{W}\)。假设\(\mathbf{U}\)包含偏置参数，我们可以将全连接层形式化地表示为

\[[\mathbf{H}]_{i, j} = [\mathbf{U}]_{i, j} + \sum_k \sum_l [\mathsf{W}]_{i, j, k, l} [\mathbf{X}]_{k, l} \]

这个公式表示每个输出位置 \((i, j)\) 都可能受到所有输入位置 \((k, l)\) 的影响，参数数量巨大。

注意里面的乘法是矩阵的按元素乘法

🔄 等价转换（引入偏移量 \(a = k - i\), \(b = l - j\)）

\[[\mathbf{H}]_{i, j} = [\mathbf{U}]_{i, j} + \sum_a\sum_b [\mathsf{V}]_{i, j, a, b} [\mathbf{X}]_{i+a, j+b} \]

这是为了方便表达“以 \((i, j)\) 为中心”的操作。

✅ 加入平移不变性（权重共享）

\[[\mathbf{H}]_{i, j} = u + \sum_a\sum_b [\mathbf{V}]_{a, b} [\mathbf{X}]_{i+a, j+b} \]

此时权重 \(\mathbf{V}\) 是共享的，不再随位置变化，大大减少了参数数量。

✅ 加入局部性（限制求和范围）

\[[\mathbf{H}]_{i, j} = u + \sum_{a=-\Delta}^{\Delta} \sum_{b=-\Delta}^{\Delta} [\mathbf{V}]_{a, b} [\mathbf{X}]_{i+a, j+b} \]

这就是我们熟悉的卷积操作或互相关操作（cross-correlation）。

🧮 三、卷积的数学定义回顾

对于离散情况：

\[(f * g)(i, j) = \sum_a\sum_b f(a, b) \cdot g(i - a, j - b) \]

这与上面的公式非常相似，只不过卷积中会对核进行翻转，而深度学习中的实现通常用的是互相关（cross-correlation），不翻转核。

📦 四、扩展到多个通道（Channel）

真实图像有多个通道（如 RGB），因此需要将卷积推广到三维张量。

输入：\(\mathsf{X} \in \mathbb{R}^{H \times W \times C_{in}}\)
权重（卷积核）：\(\mathsf{V} \in \mathbb{R}^{k \times k \times C_{in} \times C_{out}}\)
输出：\(\mathsf{H} \in \mathbb{R}^{H' \times W' \times C_{out}}\)

最终的卷积公式变为：

\[[\mathsf{H}]_{i,j,d} = \sum_{a=-\Delta}^{\Delta} \sum_{b=-\Delta}^{\Delta} \sum_c [\mathsf{V}]_{a, b, c, d} \cdot [\mathsf{X}]_{i+a, j+b, c} \]

其中：

\(c\): 输入通道索引
\(d\): 输出通道索引
\(a, b\): 局部空间偏移

🧱 五、为什么卷积神经网络（CNN）更高效？

特性	多层感知机（MLP）	卷积神经网络（CNN）
参数数量	非常大（全连接）	很小（局部+共享）
空间结构	忽略	显式建模
平移不变性	无	有
局部性	无	有
应用场景	表格数据	图像、视频等高维感知数据

📌 总结

卷积可以看作是一种具有平移不变性和局部性约束的特殊全连接层。这种结构上的归纳偏置使得CNN特别适合处理图像数据，在减少参数的同时保留了重要的空间信息。

这些特性共同构成了现代卷积神经网络的核心设计原则，也是它在计算机视觉任务中取得巨大成功的关键原因。

posted @ 2025-05-07 17:37 玉米面手雷王阅读(43) 评论(0) 收藏举报

刷新页面返回顶部