第四次作业:猫狗大赛挑战赛

1.下载数据

image

2.数据处理

datasets 是 torchvision 中的一个包,可以用做加载图像数据。它可以以多线程(multi-thread)的形式从硬盘中读取数据,使用 mini-batch 的形式,在网络训练中向 GPU 输送。在使用CNN处理图像时,需要进行预处理。图片将被整理成 $224\times 224 \times 3$ 的大小,同时还将进行归一化处理。

设置VGG的格式

image

将数据集拆分成训练集和有效集

image

显示图片

image

3.创建VGG模型

我们直接使用预训练好的 VGG 模型。同时,为了展示 VGG 模型对本数据的预测结果,还下载了 ImageNet 1000 个类的 JSON 文件。

在这部分代码中,对输入的5个图片利用VGG模型进行预测,同时,使用softmax对结果进行处理,随后展示了识别结果。可以看到,识别结果是比较非常准确的。
image

4.修改最后一层,冻结前面层的参数

VGG 模型如下图所示,注意该网络由三种元素组成:

  • 卷积层(CONV)是发现图像中局部的 pattern
  • 全连接层(FC)是在全局上建立特征的关联
  • 池化(Pool)是给图像降维以提高特征的 invariance
    我们的目标是使用预训练好的模型,因此,需要把最后的 nn.Linear 层由1000类,替换为2类。为了在训练中冻结前面层的参数,需要设置 required_grad=False。这样,反向传播训练梯度时,前面层的权重就不会自动更新了。训练中,只会更新最后一层的参数
    image

5.训练并测试全连接层

包括三个步骤:第1步,创建损失函数和优化器;第2步,训练模型;第3步,测试模型。
image

image

image

6. 可视化模型预测结果(主观分析)

主观分析就是把预测的结果和相对应的测试图像输出出来看看,一般有四种方式:

  • 随机查看一些预测正确的图片
  • 随机查看一些预测错误的图片
  • 预测正确,同时具有较大的probability的图片
  • 预测错误,同时具有较大的probability的图片
  • 最不确定的图片,比如说预测概率接近0.5的图片
    image
posted @ 2021-10-24 20:16  要早睡呀  阅读(27)  评论(0)    收藏  举报