随笔分类 - 视觉
计算机视觉相干吧
摘要:概述 将 Transformer 应用到视觉领域,就形成了 ViT(Vision Transformer)。 与卷积神经网络 CNN 不同,ViT 将图像切分为块并转换为向量,像是处理文本一样处理图像。这让 ViT 拥有了超越 CNN 的全局信息捕捉能力。当训练集数量足够时,ViT 表现优于 CNN
阅读全文
摘要:Surface Blur 效果 PhotoShop 中有一种叫做 Surface Blur 的效果。 与其他模糊效果不同, Surface Blur 可以在模糊的同时保留图像的边缘特征。使用 Surface Blur 得到的图片,像是油画一般被划分为多个色块。 双边滤波 Bilateral filt
阅读全文
摘要:深度可分离卷积,使用了一些 trick 极大减少卷积所需参数量和计算量。 理解深度可分离卷积 若需要对 12×12×3 的输入使用卷积,获得 8×8×256 的输出,直接的卷积方法是使用 256 个 5×5×3 的卷积核(无 padding、步长为 1,下同)。此时卷积层的参数量为 19200,卷积
阅读全文
摘要:用实例说明通道注意力机制与空间注意力机制的内容。包含代码示例。 参考的博文: pytorch中加入注意力机制(CBAM),以ResNet为例。解析到底要不要用ImageNet预训练?如何加预训练参数? (六十一)通俗易懂理解——通道注意力机制和空间注意力机制(CBAM) CBAM Convoluti
阅读全文
摘要:开端 ViT(Visual Transformer)是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型,但是当训练数据集不够大的时候,ViT 的表现通常比同等大小的 ResNets 要差一些。 为什么呢?寻找答案的过程中,发现了 归纳偏置 这个概念。 在阅读
阅读全文
摘要:阅读这个网站写的一些备忘。 通过少量修改 ResNet18 网络结构的形式,对全卷积网络方案一窥究竟。 允许网络输入任意大小的图像 一般的卷积网络,会因为全连接层 nn.Linear 的存在,而仅允许固定大小的图像输入。 全卷积网络 FCN 使用 1×1 的卷积核,回避了全连接层的缺陷。 不摒弃全连
阅读全文

浙公网安备 33010602011771号