YOLOv8改进 | 2023主干篇 | 华为最新VanillaNet主干替换Backbone实现大幅度长点 - Snu77

YOLOv8改进 | 2023主干篇 | 华为最新VanillaNet主干替换Backbone实现大幅度长点

一、本文介绍

本文给大家来的改进机制是华为最新VanillaNet网络，其是今年最新推出的主干网络，VanillaNet是一种注重极简主义和效率的神经网络架构。它的设计简单，层数较少，避免了像深度架构和自注意力这样的复杂操作(需要注意的是该网络结构的通道数会被放大，GFLOPs的量会很高)。我将其替换整个YOLOv8的Backbone，在一些大目标和小目标检测上均有涨点，效果比上一篇RepViT的效果要好。我的实验数据集是一个包含1000张图片包含大中小的检测目标的数据集上(共有20+类别)，下面我会附上基础版本和修改版本的训练对比图，同时我会手把手教你添加该网络结构。

专栏回顾：YOLOv8改进系列专栏——本专栏持续复习各种顶会内容——科研必备

二、VanillaNet原理

2.2 VanillaNet的基本原理

VanillaNet是一种注重极简主义和效率的神经网络架构。它的设计简单，层数较少，避免了像深度架构和自注意力这样的复杂操作。VanillaNet的关键特性包括深度训练策略，最初使用激活函数训练两个卷积层，随后这个激活函数逐渐简化为恒等映射，允许层合并。此外，VanillaNet还使用并行堆叠的激活函数来提高非线性，从而提升简单网络的性能。

VanillaNet的原理包括以下几个关键点：

1. 深度训练策略：初始阶段采用两个卷积层和一个激活函数进行训练，随着训练进程，激活函数逐渐转化为恒等映射，允许这些层合并，从而减少推断时间。

2. 串联激活函数：VanillaNet引入了并行堆叠激活函数来增强非线性，这对于简单网络的性能至关重要。

下面为大家展示了VanillaNet-6模型的架构：

它仅由6个卷积层构成。输入特征的尺寸会在每个阶段降低，而通道数则会翻倍，这一设计借鉴了如AlexNet和VGGNet这类经典神经网络的设计理念。通过这种方式，VanillaNet-6模型能够以较低的计算成本处理图像数据，同时通过增加通道数来保持足够的特征表达能力。

2.2.1 深度训练策略

深度训练策略是指在神经网络训练初期采用比标准配置更多的层和更复杂的结构，这通过增加模型的非线性和表示能力来提高训练效果。（这是一种现在比较流行的网络设计方式，在训练的时候使用复杂的结构，推理的时候使用简单的结构）。训练的后期，这些额外层会通过技术手段合并或简化，以减少模型的复杂性和提高推理时的效率。

这种策略允许在初期利用深层结构的强大能力，在不牺牲推理速度的前提下，随着训练的进行，逐步优化模型结构，最终达到一个既能保持良好性能又能高效运行的平衡点。这样做的目的是在保持推理效率的同时，利用深度结构在训练过程中提供的额外能力。

2.2.2 串联激活函数

串联激活函数是指在一个神经网络的相同层或连续层中使用多个激活函数，这样可以增强网络处理非线性问题的能力。传统的神经网络可能只在每个卷积层后使用一个激活函数，而串联激活函数的做法是将多个激活函数按序排列，每个函数的输出成为下一个函数的输入。这种串联可以创建更复杂的函数映射，从而允许模型捕捉到更丰富的数据表示和特征。

具体改进方法可访问如下地址：

YOLOv8改进 | 2023主干篇 | 华为最新VanillaNet主干替换Backbone实现大幅度长点，点击此处即可跳转

posted on 2024-01-16 00:11 Snu77 阅读(378) 评论(0) 收藏举报

刷新页面返回顶部

Snu77

YOLOv8改进 | 2023主干篇 | 华为最新VanillaNet主干替换Backbone实现大幅度长点

导航

公告