神经网络与深度学习学习笔记（三）

神经网络与深度学习学习笔记（三）

一、卷积神经网络基础

1. 全连接网络问题

1.1 全连接网络的局限性

参数爆炸：输入为 \(1000 \times 1000\) 图像时，隐含层1M节点需 \(10^{12}\) 级参数
空间相关性未利用：图像局部特征未被有效提取
改进方案：
- 局部连接网络：每个节点仅连接上一层的局部区域
- 分层特征提取：模仿人类视觉分层处理机制

1.2 深度学习平台对比

库名	发布者	特点
TensorFlow	Google	多语言支持，生态完善
PyTorch	Facebook	动态计算图，易用性强
MXNet	Amazon/DMLC	分布式训练支持
PaddlePaddle	百度	中文文档丰富，工业级优化

2. 卷积神经网络基础

2.1 卷积操作

填充（Padding）：在矩阵边界补零，控制输出尺寸
- 公式：输出尺寸 = \(\frac{n + 2p - f}{s} + 1\)
步长（Stride）：卷积核移动步幅，影响特征图降采样速率
多通道卷积：RGB三通道分别卷积后求和，输出单通道特征图

2.2 池化操作

最大池化：取局部区域最大值，保留显著特征
平均池化：取局部区域均值，平滑特征响应
作用：降维、平移不变性、防止过拟合

2.3 经典网络结构

LeNet-5（1998）：
- 结构：输入 → 卷积 → 池化 → 卷积 → 池化 → 全连接 → 输出
- 特点：首次应用于手写数字识别，5层可训练层
- 参数量：约6万
AlexNet（2012）：
- 改进：ReLU激活、Dropout、数据增强、双GPU训练
- 结构：5卷积层 + 3全连接层，参数量6000万
VGG-16（2014）：
- 特点：3×3小卷积核堆叠，结构规整
- 参数量：1.38亿，层数16层

3. 残差网络（ResNet）

3.1 残差块设计

核心思想：引入跨层连接（Shortcut），解决梯度消失
\[ H(x) = F(x) + x \]
残差块结构：
- 主路径：卷积 → ReLU → 卷积
- 支路：恒等映射或1×1卷积调整维度

3.2 残差网络优势

深层训练稳定性：通过残差学习缓解梯度消失
通用规律：
- 网络加深时，特征图尺寸减半，通道数翻倍
- 使用批量归一化（BatchNorm）加速收敛

4. Inception网络

多尺度卷积：并行使用1×1、3×3、5×5卷积核，融合多尺度特征
1×1卷积降维：减少计算量，增加非线性
Inception模块：
[ \text{输出} = \text{Concat}(1\times1, 3\times3, 5\times5, \text{MaxPool}) ]

二、深度学习视觉应用

1. 常用数据集

1.1 MNIST/Fashion-MNIST

MNIST：6万训练+1万测试，28×28灰度手写数字
Fashion-MNIST：10类服装图像，替代MNIST用于算法测试

1.2 CIFAR-10

10类物体，5万训练+1万测试，32×32彩色图像
类别：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车

1.3 PASCAL VOC

20类物体检测与分割，1.1万标注图像
标注格式：XML文件描述边界框和类别

1.4 MS COCO

80类物体，33万图像，目标检测、分割、关键点任务
特点：复杂场景，小目标密集

2. 评价指标

2.1 精确率与召回率

混淆矩阵：

预测正类预测负类

实际正类 TP FN

实际负类 FP TN
计算公式：
[ \text{精确率} = \frac{TP}{TP + FP}, \quad \text{召回率} = \frac{TP}{TP + FN} ]

2.2 平均精度（mAP）

AP计算：对P-R曲线积分，取各类别AP的平均值
\[ AP = \sum_{k=1}^{N} P(k) \Delta r(k) \]
mAP意义：综合反映多类别检测性能

3. 目标检测与YOLO

3.1 YOLO核心思想

一步检测：将检测任务转化为回归问题，直接输出边界框和类别
网格划分：图像分为 \(S \times S\) 网格，每个网格预测 \(B\) 个边界框
输出张量：7×7×30（YOLOv1），包含坐标、置信度、类别概率

3.2 YOLO损失函数

五项损失：
\[ \lambda_{\text{coord}} \sum (x-\hat{x})^2 + \lambda_{\text{coord}} \sum (\sqrt{w}-\sqrt{\hat{w}})^2 \]
\[ + \sum (C-\hat{C})^2 + \lambda_{\text{noobj}} \sum (C-\hat{C})^2 + \sum (p-\hat{p})^2 \]
超参数：\(\lambda_{\text{coord}} = 5\), \(\lambda_{\text{noobj}} = 0.5\)

3.3 非极大值抑制（NMS）

步骤：
1. 按置信度排序，保留最高得分的边界框
2. 计算IoU，剔除重叠度高的框
3. 重复直至处理完所有候选框

3.4 YOLO发展

YOLOv3：
- DarkNet-53骨干网络，多尺度预测（13×13, 26×26, 52×52）
- 使用CIoU损失，提升定位精度
YOLOv5：
- 引入CSP结构，Focus切片操作
- 自适应锚框计算，Mosaic数据增强

4. 全卷积网络与语义分割

4.1 FCN（全卷积网络）

核心思想：将全连接层替换为卷积层，支持任意尺寸输入
跳层连接：融合浅层细节与深层语义信息

4.2 DeepLab系列

空洞卷积：扩大感受野，保留空间分辨率
条件随机场（CRF）：后处理优化边界

三、总结与实践建议

1. 关键总结

经典网络：LeNet-5→AlexNet→VGG→ResNet→Inception，结构逐渐深化
目标检测：YOLO系列兼顾速度与精度，适合实时应用
评价指标：mAP是目标检测的核心指标，需关注类别平衡

2. 实践建议

数据预处理：标准化、数据增强（翻转、裁剪、Mosaic）
模型选择：
- 轻量级任务：YOLOv5s
- 高精度需求：YOLOv8/9
调参重点：学习率调度、损失函数权重、NMS阈值

posted @ 2025-05-17 21:17 Xu_9 阅读(52) 评论(0) 收藏举报

刷新页面返回顶部