合集-AI论文
摘要:
MobileNet V1是谷歌2017年提出的轻量化卷积神经网络,用于在移动端、边缘终端设备上进行实时边缘计算和人工智能推理部署。
使用深度可分离卷积Depthwise Separable Convolution,在保证准确度性能的基础上,将参数量、计算量压缩为标准卷积的八到九分之一。引入网络宽度超参数和输入图像分辨率超参数,进一步控制网络尺寸。
在ImageNet图像分类、Stanford Dog细粒度图像分类、目标检测、人脸属性识别、人脸编码、以图搜地等计算机视觉任务上,结合知识蒸馏进行评估,MobileNet表现出极致的轻量化和速度性能。
阅读全文
MobileNet V1是谷歌2017年提出的轻量化卷积神经网络,用于在移动端、边缘终端设备上进行实时边缘计算和人工智能推理部署。
使用深度可分离卷积Depthwise Separable Convolution,在保证准确度性能的基础上,将参数量、计算量压缩为标准卷积的八到九分之一。引入网络宽度超参数和输入图像分辨率超参数,进一步控制网络尺寸。
在ImageNet图像分类、Stanford Dog细粒度图像分类、目标检测、人脸属性识别、人脸编码、以图搜地等计算机视觉任务上,结合知识蒸馏进行评估,MobileNet表现出极致的轻量化和速度性能。
阅读全文
摘要:
谷歌轻量化卷积神经网络MobileNet V2,用于移动端实时边缘计算部署。
构建先升维后降维,在降维时使用线性激活函数,带残差的Inverted bottleck模块,防止ReLU信息丢失。
在图像分类、目标检测、语义分割等任务上实现了网络轻量化、速度和准确度的权衡。
阅读全文
谷歌轻量化卷积神经网络MobileNet V2,用于移动端实时边缘计算部署。
构建先升维后降维,在降维时使用线性激活函数,带残差的Inverted bottleck模块,防止ReLU信息丢失。
在图像分类、目标检测、语义分割等任务上实现了网络轻量化、速度和准确度的权衡。
阅读全文
摘要:
1. 前言 AlexNet是一个深度卷积神经网络模型,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton于2012年设计。这个模型在ImageNet图像识别挑战赛中获得了当时的冠军,并推动了卷积神经网络在计算机视觉中的广泛应用。 AlexNet包括5个卷积
阅读全文
1. 前言 AlexNet是一个深度卷积神经网络模型,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton于2012年设计。这个模型在ImageNet图像识别挑战赛中获得了当时的冠军,并推动了卷积神经网络在计算机视觉中的广泛应用。 AlexNet包括5个卷积
阅读全文
摘要:
旷视轻量化卷积神经网络ShuffleNet V2
ECCV 2018论文:ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design
通过大量实验提出四条轻量化网络设计准则,对输入输出通道、分组卷积组数、网络碎片化程度、逐元素操作对不同硬件上的速度和内存访问量MAC的影响进行了详细分析。
提出ShuffleNet V2模型,通过Channel Split替代分组卷积,满足四条设计准则,达到了速度和精度的最优权衡。
阅读全文
旷视轻量化卷积神经网络ShuffleNet V2
ECCV 2018论文:ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design
通过大量实验提出四条轻量化网络设计准则,对输入输出通道、分组卷积组数、网络碎片化程度、逐元素操作对不同硬件上的速度和内存访问量MAC的影响进行了详细分析。
提出ShuffleNet V2模型,通过Channel Split替代分组卷积,满足四条设计准则,达到了速度和精度的最优权衡。
阅读全文
摘要:
旷视轻量化卷积神经网络ShuffleNet V1。
通过group pointwise convolution分组1x1卷积和channel shuffle通道重排操作,降低参数量和计算量,扩增卷积核个数。
阅读全文
旷视轻量化卷积神经网络ShuffleNet V1。
通过group pointwise convolution分组1x1卷积和channel shuffle通道重排操作,降低参数量和计算量,扩增卷积核个数。
阅读全文
摘要:
谷歌轻量化卷积神经网络Mnasnet,介于MobileNet V2和V3之间。
CVPR2019论文:Mnasnet: Platform-aware neural architecture search for mobile
使用多目标优化的目标函数,兼顾速度和精度,其中速度用真实手机推断时间衡量。
提出分层的神经网络架构搜索空间,将卷积神经网络分解为若干block,分别搜索各自的基本模块,保证层结构多样性。
阅读全文
谷歌轻量化卷积神经网络Mnasnet,介于MobileNet V2和V3之间。
CVPR2019论文:Mnasnet: Platform-aware neural architecture search for mobile
使用多目标优化的目标函数,兼顾速度和精度,其中速度用真实手机推断时间衡量。
提出分层的神经网络架构搜索空间,将卷积神经网络分解为若干block,分别搜索各自的基本模块,保证层结构多样性。
阅读全文
摘要:1. 前言 ResNeXt是由何凯明团队在论文《Aggregated Residual Transformations for Deep Neural Networks》提出来的新型图像分类网络。 ResNeXt是ResNet的升级版,在ResNet的基础上,引入了cardinality的概念,其实
阅读全文
摘要:1. 前言 SENet由Momenta公司,在论文《Squeeze-and-Excitation Networks》提出,核心是SE block,它通过对特征通道间的相关性进行建模,把重要的特征进行强化来提升准确率。 作者采用SENet block和ResNeXt结合在ILSVRC 2017(最后一
阅读全文
摘要:1. 前言 ResNet由微软亚洲研究院在论文《Deep Residual Learning for Image Recognition》中提出,获得2015年ImageNet图像分类、定位、检测,MS COCO竞赛检测、分割五条赛道的冠军,通过引入残差连接,有效解决深层网络训练时的退化问题,可以通
阅读全文
摘要:1. 前言 VGG是由牛津大学视觉组(Visual Geometry Group,Vgg的名称也是来源于此)在2014年的论文《Very Deep Convolutional Networks for Large-Scale Visual Recognition》中提出的卷积神经网络模型。 VGG将
阅读全文
摘要:1. 前言Inception V4是google团队在《Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning》论文中提出的一个新的网络,如题目所示,本论文还提出了Inception-ResN
阅读全文
摘要:1. 前言 Inception V2/V3由googLeNet的一作在《Rethinking the Inception Architecture for Computer Vision》中提出。本论文在GoogLeNet和BN-Inception的基础上,对Inception模块的结构、性能、参数
阅读全文
摘要:
GoogLeNet深度卷积神经网络结构,及其后续变种Inception-V1、Inception-V2-Inception-V3、Inception-V4。
使用Inception模块,引入并行结构和不同尺寸的卷积核,提取不同尺度的特征,将稀疏矩阵聚合为较为密集的子矩阵,大大提高计算效率,降低参数数量。加入辅助分类器,实现了模型整合、反向传播信号放大。
GoogLeNet在ILSVRC-2014图像分类竞赛中获得了top-5误差6.7%的冠军成绩。
阅读全文
GoogLeNet深度卷积神经网络结构,及其后续变种Inception-V1、Inception-V2-Inception-V3、Inception-V4。
使用Inception模块,引入并行结构和不同尺寸的卷积核,提取不同尺度的特征,将稀疏矩阵聚合为较为密集的子矩阵,大大提高计算效率,降低参数数量。加入辅助分类器,实现了模型整合、反向传播信号放大。
GoogLeNet在ILSVRC-2014图像分类竞赛中获得了top-5误差6.7%的冠军成绩。
阅读全文
摘要:
纽约大学ZFNet,2013年ImageNet图像分类竞赛冠军模型。提出了一系列可视化卷积神经网络中间层特征的方法,并巧妙设置了对照消融实验,从各个角度分析卷积神经网络各层提取的特征及对变换的敏感性。
使用反卷积,将中间层feature map投射重构回原始输入像素空间,便于可视化每个feature map捕获的特征。
改进AlexNet模型,减小卷积核尺寸,减小步长,增加卷积核,提出ZFNet。
阅读全文
纽约大学ZFNet,2013年ImageNet图像分类竞赛冠军模型。提出了一系列可视化卷积神经网络中间层特征的方法,并巧妙设置了对照消融实验,从各个角度分析卷积神经网络各层提取的特征及对变换的敏感性。
使用反卷积,将中间层feature map投射重构回原始输入像素空间,便于可视化每个feature map捕获的特征。
改进AlexNet模型,减小卷积核尺寸,减小步长,增加卷积核,提出ZFNet。
阅读全文
摘要:参考博客:FCOS网络解析 参考视频:FCOS网络讲解 从Anchor-Base转到Anchor-free,其实会有几个问题,一个是如何匹配正负样本?第二个是预测时中心点坐标怎么定? 如何匹配正负样本? 网络采用了FCN,得到若干个待预测的特征图,然后将每个GT的范围映射到特征图中,只要特征图中的某
阅读全文
摘要:1. V1参考博客:EfficientNet网络详解 参考视频:9.1 EfficientNet网络详解 基于MobileNetV3的基本模块改进后形成EfficientNet-B0,并以其为基准网络,对输入图像分辨率r,网络的深度depth及网络的宽度width三个参数,在限定内存和计算量的条件下
阅读全文
摘要:1. 前言 google团队MobileNet系列的第三个版本,在论文《Searching for MobileNetV3》中提出。感觉主要在Mnasnet和MobileNetV2上进行改进,主要工作有以下几点: 更新V2中的倒残差结构(bneck),重新设计激活函数 使用NAS搜索参数 重新设计耗
阅读全文
摘要:1. 前言 这篇论文也是何凯明的团队在2017年的论文《Focal Loss for Dense Object Detection》中提出的,网络架构魔改了FPN,因此这篇论文的重点是提出了新的分类Loss——Focal Loss,用一个合适的函数,去度量难分类和易分类样本对总的损失函数的贡献。解决
阅读全文
摘要:1. FPN 1.1. FPN简介 特征金字塔,全称Feature Pyramid Networks ,由Tsung-Yi Lin等2017年在论文《Feature Pyramid Networks for Object Detection》中提出,它的主要目标是解决在不同尺度上进行目标检测和分割时
阅读全文
摘要:参考视频:YOLOv7论文,网络结构,官方源码,超详细解析 参考博客:YOLOV7详细解读(一)网络架构解读 总体来说框架也是没有大的变化,但是Block应该是精心设计过的,ELAN有点像Inception模块,加上RepVgg的结构重参数化,还有SPP魔改,总体感觉就是网络过于复杂,而且和v6同期
阅读全文
摘要:1. 前言 YOLOv6是美团视觉智能部研发的一款目标检测框架,致力于工业应用。它支持模型训练、推理及多平台部署等全链条的工业应用需求,并在网络结构、训练策略等算法层面进行了多项改进,能够同时专注于检测的精度和推理效率。 与其他yolo模型的性能对比: YOLOv6-N在COCO数据集上精度为35.
阅读全文
摘要:1. 参考 视频:14.1 RepVGG网络讲解 博客:RepVGG网络简介 2. 主要内容 2.1.与其他网络对比 如下图所示,RepVGG无论是在精度还是速度上都已经超过了ResNet、EffcientNet以及ReNeXt等网络。 2.2. 创新点,结构重参数化 在训练时,使用一个类似ResN
阅读全文
摘要:1. 前言 出自论文《“Why Should I Trust You?”Explaining the Predictions of Any Classifier》,LIME是通用的机器学习可解释性分析方法。使用“可解释特征”,训练“可解释模型”,在“特定样本的局部线性邻域”拟合“原模型”。通过可解释
阅读全文
摘要:1. 前言 出自《Visual Explanations From Deep Networks via Gradient-Based Localization》,对原生CAM(类激活热力图)改进,计算“特定类别预测分数相对于最后一层卷积层输出特征图每个元素的偏导数”,进而计算特征图每个channel
阅读全文
摘要:1. 前言 CAM由周博磊等在论文《Learning Deep Features for Discriminative Localization》中提出,是神经网络可解释性分析方面的经典论文,影响了后续很多的工作。 主要的方法非常简单但又巧妙,通过全局平均池化(GAP)层,获得指定类别对最后一层卷积
阅读全文
摘要:参考博客:YOLOX网络结构详解 参考视频:YOLOX网络结构详解 亮点: 网络检测头部分,改成解耦的结构,将类别分数、边界框回归参数和objectness分别预测,提高网络收敛速度。 使用Anchor free对目标进行预测。 正负样本匹配策略SimOTA。 (完)
阅读全文
摘要:推荐博客:YOLOv4网络详解 配套视频:YOLOv4网络详解 补充知识:3.1 YOLO系列理论合集(YOLOv1~v3) 中的yolov3spp理论讲解(包括CIoU以及Focal Loss) (完)
阅读全文
摘要:1. 前言 YOLOV3是单阶段目标检测算法YOLO系列的第三个版本,由华盛顿大学Joseph Redmon发布于2018年4月,广泛用于工业界。 改进了正负样本选取、损失函数、Darknet-53骨干网络,并引入了特征金字塔多尺度预测,显著提升了速度和精度。 2. 网络结构 换了骨干网络,把bac
阅读全文
摘要:1. 前言 YOLOV2是YOLO目标检测系列算法的第二个版本。 第一部分:在YOLOV1基础上进行了若干改进优化,得到YOLOV2,提升算法准确度和速度。特别是增加了Anchor机制,改进了骨干网络。 第二部分:提出分层树状的分类标签结构WordTree,在目标检测和图像分类数据集上联合训练,YO
阅读全文
摘要:1. 前言 由Joseph Redmon等人2016年在论文《You Only Look Once: Unifified, Real-Time Object Detection》中提出的一阶段目标检测算法,核心思想是将物体检测任务视为回归问题。它通过将图像分成S×S个网格,每个网格负责预测该网格中是
阅读全文
摘要:参考博客:MobileViT模型简介 参考视频:15.1 MobileViT网络讲解 MobileViT结构上是一个混合模型,CNN+Transformer,比主流的轻量化ViT网络和轻量化CNN网络参数量少,精度高,缺点是推理速度慢,下图可以看到,推理时间是MobileNetV2的8倍。 网络结构
阅读全文
摘要:参考博客:ConvNeXt网络详解 参考视频:13.1 ConvNeXt网络讲解 ConvNeXt其实就是面向Swin Transformer的架构进行炼丹,最后获得一个比Swin Transformer还要牛逼的网络。
阅读全文
摘要:参考博客:Swin-Transformer网络结构详解 参考视频: 12.1 Swin-Transformer网络结构详解 Swin Transformer论文精读【论文精读】 使用了类似卷积神经网络中的层次化构建方法(Hierarchical feature maps),比如特征图尺寸中有对图像下
阅读全文
摘要:参考博客:Vision Transformer详解 参考视频:11.1 Vision Transformer(vit)网络详解 基本流程: 提取embedding:将原图分为若干patch,使用convnet提取每个patch的特征作为embedding,然后在前面concat一个用来分类的embe
阅读全文
摘要:参考博客:睿智的目标检测36——Pytorch搭建Efficientdet目标检测平台参考视频:Pytorch 搭建自己的Efficientdet目标检测平台EfficientNet+BIFPN+解耦Head(类似RetinaNet),Anchor-Base
阅读全文

浙公网安备 33010602011771号