卷积是特殊的二维MLP
什么是卷积
🧠 一、核心思想:卷积是特殊的二维 MLP
✅ 卷积的两个关键归纳偏置(Inductive Bias)
- 平移不变性(Translation Invariance)
- 同一个特征检测器可以在图像的不同位置使用。
- 数学上体现为:权重张量 \(\mathbf{V}\) 不依赖于位置 \((i, j)\),即 \([\mathsf{V}]_{i,j,a,b} = [\mathbf{V}]_{a,b}\)。
- 总结:不管检测对象出现在图像中的哪个位置,神经网络的前面几层应该对相同的图像区域具有相似的反应,即为“平移不变性”。
 
- 局部性(Locality)
- 每个输出只由输入的一个局部区域决定。
- 数学上体现为:在某个范围外的权重设为0,如 \(|a| > \Delta\) 或 \(|b| > \Delta\) 时 \([\mathbf{V}]_{a,b} = 0\)。
- 总结:神经网络的前面几层应该只探索输入图像中的局部区域,而不过度在意图像中相隔较远区域的关系,这就是“局部性”原则。最终,可以聚合这些局部特征,以在整个图像级别进行预测。
 
📐 二、从全连接到卷积的数学演变
📌 原始全连接形式(四维权重张量)
首先,多层感知机的输入是二维图像\(\mathbf{X}\),其隐藏表示\(\mathbf{H}\)在数学上是一个矩阵,在代码中表示为二维张量。
其中\(\mathbf{X}\)和\(\mathbf{H}\)具有相同的形状。
为了方便理解,我们可以认为,无论是输入还是隐藏表示都拥有空间结构。
使用\([\mathbf{H}]_{i, j}\)表示隐藏中位置(\(i\),\(j\))处的像素。
为了使每个隐藏神经元都能接收到每个输入像素的信息,我们将参数从权重矩阵(如同我们先前在多层感知机中所做的那样)替换为四阶权重张量\(\mathsf{W}\)。假设\(\mathbf{U}\)包含偏置参数,我们可以将全连接层形式化地表示为
\[[\mathbf{H}]_{i, j} = [\mathbf{U}]_{i, j} + \sum_k \sum_l [\mathsf{W}]_{i, j, k, l} [\mathbf{X}]_{k, l}
\]
这个公式表示每个输出位置 \((i, j)\) 都可能受到所有输入位置 \((k, l)\) 的影响,参数数量巨大。
注意里面的乘法是矩阵的按元素乘法
🔄 等价转换(引入偏移量 \(a = k - i\), \(b = l - j\))
\[[\mathbf{H}]_{i, j} = [\mathbf{U}]_{i, j} + \sum_a\sum_b [\mathsf{V}]_{i, j, a, b} [\mathbf{X}]_{i+a, j+b}
\]
这是为了方便表达“以 \((i, j)\) 为中心”的操作。
✅ 加入平移不变性(权重共享)
\[[\mathbf{H}]_{i, j} = u + \sum_a\sum_b [\mathbf{V}]_{a, b} [\mathbf{X}]_{i+a, j+b}
\]
此时权重 \(\mathbf{V}\) 是共享的,不再随位置变化,大大减少了参数数量。
✅ 加入局部性(限制求和范围)
\[[\mathbf{H}]_{i, j} = u + \sum_{a=-\Delta}^{\Delta} \sum_{b=-\Delta}^{\Delta} [\mathbf{V}]_{a, b} [\mathbf{X}]_{i+a, j+b}
\]
这就是我们熟悉的卷积操作或互相关操作(cross-correlation)。
🧮 三、卷积的数学定义回顾
对于离散情况:
\[(f * g)(i, j) = \sum_a\sum_b f(a, b) \cdot g(i - a, j - b)
\]
这与上面的公式非常相似,只不过卷积中会对核进行翻转,而深度学习中的实现通常用的是互相关(cross-correlation),不翻转核。
📦 四、扩展到多个通道(Channel)
真实图像有多个通道(如 RGB),因此需要将卷积推广到三维张量。
- 输入:\(\mathsf{X} \in \mathbb{R}^{H \times W \times C_{in}}\)
- 权重(卷积核):\(\mathsf{V} \in \mathbb{R}^{k \times k \times C_{in} \times C_{out}}\)
- 输出:\(\mathsf{H} \in \mathbb{R}^{H' \times W' \times C_{out}}\)
最终的卷积公式变为:
\[[\mathsf{H}]_{i,j,d} = \sum_{a=-\Delta}^{\Delta} \sum_{b=-\Delta}^{\Delta} \sum_c [\mathsf{V}]_{a, b, c, d} \cdot [\mathsf{X}]_{i+a, j+b, c}
\]
其中:
- \(c\): 输入通道索引
- \(d\): 输出通道索引
- \(a, b\): 局部空间偏移
🧱 五、为什么卷积神经网络(CNN)更高效?
| 特性 | 多层感知机(MLP) | 卷积神经网络(CNN) | 
|---|---|---|
| 参数数量 | 非常大(全连接) | 很小(局部+共享) | 
| 空间结构 | 忽略 | 显式建模 | 
| 平移不变性 | 无 | 有 | 
| 局部性 | 无 | 有 | 
| 应用场景 | 表格数据 | 图像、视频等高维感知数据 | 
📌 总结
卷积可以看作是一种具有平移不变性和局部性约束的特殊全连接层。这种结构上的归纳偏置使得CNN特别适合处理图像数据,在减少参数的同时保留了重要的空间信息。
这些特性共同构成了现代卷积神经网络的核心设计原则,也是它在计算机视觉任务中取得巨大成功的关键原因。
 
                    
                
 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号