一、视频心得及问题
姓名 | 心得 | 问题 |
---|---|---|
唐晓培 | 卷积神经网络的基本应用包括分类、检索、检测、分割,现实生活中的实践有人脸识别、图像生成、图像风格转化、自动驾驶等;一个经典的卷积网络是由卷积层、池化层和全连接层交叉堆叠而成。卷积其实是两个实变函数的数学操作,即求内积的操作,一维卷积常用于计算信号的延迟积累,可将其类比人的记忆情况来理解,二维卷积较常用,其中有一些基础概念,如卷积核filter、特征图feature map、深度channel、步长stride等,输出的特征图大小由公式(N+padding*2-F)/stride+1得到;池化即对feature map进行缩放,常用的两种模型为“最大值池化”和“平均值池化”;全连接层在卷积神经网络的尾部。常用的卷积神经网络的经典结构有AlexNet、ZFNet、VGG、GoogleNet、ResNet。 | 卷积神经网络的典型结构有点抽象,看视频没看懂。 |
苏璟涵 | 相较于全连接网络,卷积神经网络的结果更好,因为通过池化和卷积两种手段降低了过拟合。并且卷积神经网络是没有一个具体的数学公式的,在运算过程中没有一个准确的数学公式整明卷积神经网络的优越性。 卷积网络由卷积层,池化层,全连接层交叉堆叠而成,并且池化层常常放在卷积层之间,全连接层之间。对于分类而言最大池化要比平均池化效果要好。padding参数常用于数据集不够转移足够步长时使用。 视频还介绍了几种经典的卷积神经网络结构。如AlexNet、ZFNet、VGG、GoogleNet、ResNet等。 AlexNet用到了非线性激活函数ReLU,并且是双GPU实现。在训练时随机关闭神经元,然后在测试时再整合所有的神经元,该算法时DropOut,即随机失活算法。 ZFNet的网络结构和AlexNet相同,不过将感受野从11x11改为7x7,步长由4改为2。认为能够获取更多的信息。 VGG是一个更深的网络。参数很多,可以达到138M。参数大多数都在全连接层中。 GoogleNet是更好的神经网络。他的参数量较少,是Alexnet的1/2。它由22个带参数的层,但是它没有FC层。除了分类的全连接层外,没有额外的全连接层。GoogleNet用了较多的卷积核和inception模块。inception在深度上进行了串联。问题在于计算量比较复杂。它通过插入1x1的卷积核进行降维,降低深度。在Inception V3中进一步对v2的参数数量进行降低。利用两个3x3的卷积核代替5x5的卷积核,可以使表达能力更强,训练速度更快。 ResNet是利用了残差学习网络,深度有152层。残差:去掉相同的部分,突出微小的变化,计算结果是F(x)+x。 |
有没有什么比较好的方法能够找到适合的filter的参数?参数有多少才最好? |
黄浩 | 卷积神经网络是上次视频中深度学习的一个重要内容,是其中的典型代表算法。通过卷积来模拟人的视觉,降低了神经网络待训参数量。卷积层与全连接层在图像数据处理方面,卷积层保留原数据特征明显优于全连接层,可以更好的挖掘图像之中的信息内容,对数据特征进行提取,这也是其一大主要功能但是其也是需要对GPU有一定要求,因为卷积神经网络是基于大样本的计算。 | 代码实现、在各种情况下如何找对应合适的函数 |
李雨晴 | 1. 卷积神经网络的应用:介绍了分类、检索、检测、分割、人脸识别、表情识别、图像生成、图像风格转化、自动驾驶。 2. 传统神经网络与卷积神经网络: (1) 深度学习三部曲:搭建神经网络;找到一个合适的损失函数;找到一个合适的优化函数,更新参数。 (2) 搭建神经网络-损失函数:用来衡量吻合度。 (3) 传统神经网络-全连接:神经元和所有输出都有连接。虽然同样可以用于计算机视觉,但由于权重矩阵参数过多,容易导致过拟合。 (4) 卷积神经网络的解决方式:局部关联,参数共享。 (5) 组成结构:卷积层、激活层、池化层、全连接层交叉堆叠而成。 3. 卷积 卷积是对两个突变函数的一种数学操作。 一维卷积经常用在信号处理中,用于计算信号的延迟累积。 在图像处理中,图像是以二维矩阵的方式输入到神经网络的,因此需要二维卷积。 卷积过程:用卷积核和输入依次相乘,最后累加。输出的特征图大小:无padding-(N-F)/ stride+1;有padding(即除法有余时)-(N+padding*2-F)/ stride+1. 卷积的可视化理解:不同的卷积核关注不同的特征。 4. 池化 保留了主要特征的同时减少了参数和计算量,防止过拟合,提高模型泛化能力。一般处于卷积层和卷积层之间,全连接层和全连接层之间。 类型:最大值池化、平均值池化。 池化过程:在filter中计算最大值/平均值,填入特征图中。 5. 全连接 两层之间神经元都有权重连接,通常全连接层在卷积神经网络尾部,且参数量通常最大。 6. 卷积神经网络典型结构-AlexNet ReLU激活函数【ReLU=max(0,x)】:在正区间解决了梯度消失的问题、计算速度很快、收敛速度远快于sigmoid。 DropOut(随机失活)【防止过拟合】:训练时随机关闭部分神经元,测试时整合所有神经元。 AlexNet分层解析:第一次卷积:卷积-ReLU-池化;第二次卷积:卷积-ReLU-池化;第八层:全连接。 7. 卷积神经网络典型结构-VGG VGG是一个更深层次的网络,由8层的AlexNet加深到16~19层。 辅助分类器:解决由于深度过深导致梯度消失的问题。 8. 卷积神经网络典型结构-GoogleNet 网络总体结构:包含22个带参数的层(如果考虑pooling就是27层),独立成块的层总共有27个;参数量大概是AlexNet的1/12;没有FC层。 初衷:多卷积核增加特征多样性 Inception V3:进一步对V2的参数量进行降低,用小的卷积核替代大的卷积核,增加非线性激活函数使网络产生更多disentangled feature,表征能力更强,训练更快。 Stem部分:卷积-池化-卷积-卷积-池化 9. 卷积神经网络典型结构-ResNet 残差的思想(复合函数):去掉相同的主体部分,从而突出微小变化。可以被用来训练非常深的网络。 |
卷积计算部分、AlexNet分层解析、Naive Inception |
黄月凌 | 1.应用 用作分类、检索、分割 具体应用:人脸识别,人脸表情识别、图像生成、图片风格转换、自动驾驶 2.传统神经网络vs卷积神经网络 全连接网络处理图像的问题:参数过多导致过拟合 卷积神经网络的解决方式:局部关联,参数共享 3.基本组成结构 卷积(对两个实变函数的一种数学操作)、池化、全连接 4.卷积神经网络典型结构 Alex Net、ZF Net、VGG、Google Net、Res Net |
对于知识的理解仅存在表层,云里雾里。 |