读书报告
2025-10-23 21:40 nm1137 阅读(9) 评论(0) 收藏 举报卷积神经网络学习报告(基于 B 站视频)
一、学习背景与视频选择
随着人工智能在图像识别、计算机视觉等领域的广泛应用,卷积神经网络(CNN)作为核心算法备受关注。 为系统学习其原理与应用,我在 B 站选取了 UP 主 “李沐 - 深度学习” 的《卷积神经网络(CNN)从入门到实战》系列视频(链接:)。 该视频以 “原理拆解 + 代码实战” 为核心,内容由浅入深,既适合初学者理解基础概念,也能帮助学习者掌握实际应用方法,总时长约 3 小时,涵盖 CNN 的核心结构、经典模型及项目案例。
二、核心知识点梳理
(一)CNN 的基本原理
视频开篇明确了 CNN 的本质 —— 一种受生物视觉系统启发的深度学习模型,核心优势是 “局部连接” 和 “权值共享”。 局部连接指神经元仅与前一层局部区域的神经元相连,模拟人眼对局部图像的感知; 权值共享则让同一卷积核在图像不同位置使用相同参数,大幅减少模型计算量,这也是 CNN 区别于全连接神经网络的关键。
(二)核心结构与功能
卷积层(Convolutional Layer):作为 CNN 的 “特征提取器”,通过卷积核对输入图像进行滑动卷积,生成特征图。 视频中以 3×3 卷积核为例,演示了如何提取图像的边缘、纹理等低级特征,且通过多组卷积核可获取不同维度的特征。
池化层(Pooling Layer):位于卷积层之后,主要作用是 “降维减参”,避免过拟合。 常见的最大池化(取局部区域最大值)和平均池化(取局部区域平均值)在视频中均有演示,例如通过 2×2 最大池化,可将特征图尺寸缩小一半,同时保留关键特征。
全连接层(Fully Connected Layer):位于网络末端,将池化层输出的特征图 “拉平” 为一维向量,通过全连接计算实现分类或回归任务。 视频中强调,全连接层的作用是整合前面提取的局部特征,输出最终预测结果。
(三)经典模型与应用
视频重点讲解了 3 个经典 CNN 模型:
LeNet-5:最早的 CNN 模型之一,用于手写数字识别,结构简单(2 个卷积层 + 2 个池化层 + 2 个全连接层),奠定了 CNN 的基础框架。
AlexNet:2012 年 ImageNet 竞赛冠军模型,首次使用 ReLU 激活函数和 Dropout 防止过拟合,将 CNN 的应用推向高潮,可处理更复杂的图像分类任务。
ResNet:通过 “残差连接” 解决深层网络梯度消失问题,使网络深度可达百层以上,目前广泛应用于图像识别、目标检测等领域。
三、学习收获与实践感悟
通过视频学习,我不仅掌握了 CNN 的理论知识,还跟着视频完成了 “手写数字识别” 实战项目。 在实践中,我使用 PyTorch 框架搭建了简易 CNN 模型,从数据预处理(MNIST 数据集加载与归一化)到模型训练(设置损失函数、优化器),再到模型评估(测试集准确率达 98%),完整体验了 CNN 的开发流程。
同时,我也意识到 CNN 的应用场景远不止图像识别:视频中提到,CNN 可通过修改输入维度应用于音频处理(如语音识别),通过 “卷积 + 时序结构” 结合循环神经网络(RNN)处理视频序列,这让我对深度学习的跨领域应用有了更清晰的认知。
四、总结与未来计划
此次通过 B 站视频学习 CNN,实现了 “理论 + 实践” 的双重提升。 视频中 UP 主对复杂概念的通俗讲解(如用 “筛子筛面粉” 比喻卷积核提取特征),让我快速突破了学习难点。
未来,我计划进一步学习 CNN 在目标检测(如 YOLO 模型)和图像分割(如 U-Net 模型)中的应用,同时结合更多实战项目巩固知识,争取将 CNN 技术应用到自己的课程设计或科研项目中。
浙公网安备 33010602011771号