读书报告

2025-10-23 21:40 nm1137 阅读(9) 评论(0) 收藏举报

卷积神经网络学习报告（基于 B 站视频）
一、学习背景与视频选择
随着人工智能在图像识别、计算机视觉等领域的广泛应用，卷积神经网络（CNN）作为核心算法备受关注。为系统学习其原理与应用，我在 B 站选取了 UP 主 “李沐 - 深度学习” 的《卷积神经网络（CNN）从入门到实战》系列视频（链接：）。该视频以 “原理拆解 + 代码实战” 为核心，内容由浅入深，既适合初学者理解基础概念，也能帮助学习者掌握实际应用方法，总时长约 3 小时，涵盖 CNN 的核心结构、经典模型及项目案例。
二、核心知识点梳理
（一）CNN 的基本原理
视频开篇明确了 CNN 的本质 —— 一种受生物视觉系统启发的深度学习模型，核心优势是 “局部连接” 和 “权值共享”。局部连接指神经元仅与前一层局部区域的神经元相连，模拟人眼对局部图像的感知；权值共享则让同一卷积核在图像不同位置使用相同参数，大幅减少模型计算量，这也是 CNN 区别于全连接神经网络的关键。
（二）核心结构与功能
卷积层（Convolutional Layer）：作为 CNN 的 “特征提取器”，通过卷积核对输入图像进行滑动卷积，生成特征图。视频中以 3×3 卷积核为例，演示了如何提取图像的边缘、纹理等低级特征，且通过多组卷积核可获取不同维度的特征。
池化层（Pooling Layer）：位于卷积层之后，主要作用是 “降维减参”，避免过拟合。常见的最大池化（取局部区域最大值）和平均池化（取局部区域平均值）在视频中均有演示，例如通过 2×2 最大池化，可将特征图尺寸缩小一半，同时保留关键特征。
全连接层（Fully Connected Layer）：位于网络末端，将池化层输出的特征图 “拉平” 为一维向量，通过全连接计算实现分类或回归任务。视频中强调，全连接层的作用是整合前面提取的局部特征，输出最终预测结果。
（三）经典模型与应用
视频重点讲解了 3 个经典 CNN 模型：
LeNet-5：最早的 CNN 模型之一，用于手写数字识别，结构简单（2 个卷积层 + 2 个池化层 + 2 个全连接层），奠定了 CNN 的基础框架。
AlexNet：2012 年 ImageNet 竞赛冠军模型，首次使用 ReLU 激活函数和 Dropout 防止过拟合，将 CNN 的应用推向高潮，可处理更复杂的图像分类任务。
ResNet：通过 “残差连接” 解决深层网络梯度消失问题，使网络深度可达百层以上，目前广泛应用于图像识别、目标检测等领域。
三、学习收获与实践感悟
通过视频学习，我不仅掌握了 CNN 的理论知识，还跟着视频完成了 “手写数字识别” 实战项目。在实践中，我使用 PyTorch 框架搭建了简易 CNN 模型，从数据预处理（MNIST 数据集加载与归一化）到模型训练（设置损失函数、优化器），再到模型评估（测试集准确率达 98%），完整体验了 CNN 的开发流程。
同时，我也意识到 CNN 的应用场景远不止图像识别：视频中提到，CNN 可通过修改输入维度应用于音频处理（如语音识别），通过 “卷积 + 时序结构” 结合循环神经网络（RNN）处理视频序列，这让我对深度学习的跨领域应用有了更清晰的认知。
四、总结与未来计划
此次通过 B 站视频学习 CNN，实现了 “理论 + 实践” 的双重提升。视频中 UP 主对复杂概念的通俗讲解（如用 “筛子筛面粉” 比喻卷积核提取特征），让我快速突破了学习难点。
未来，我计划进一步学习 CNN 在目标检测（如 YOLO 模型）和图像分割（如 U-Net 模型）中的应用，同时结合更多实战项目巩固知识，争取将 CNN 技术应用到自己的课程设计或科研项目中。

刷新页面返回顶部

nnmm

读书报告

About