随笔分类 - 深度学习
摘要:一般图像匹配步骤:提取关键点、提取描述子、最近邻匹配、外点滤除、求解几何约束。其中外点滤除可用最优次优比限制、Ransac等。 一、Superpoint 1.基本原理 Superpoint是2018年的、基于CNN的、自监督的、用于同时提取图像关键点和描述子的网络模型。 基本思想是,首先将图像输入到
        阅读全文
            
摘要:一、SETR 1.基本原理 SETR是2021年复旦和腾讯优图联合提出的一个基于ViT的新型架构的语义分割模型,其仍然是语义分割常用的Encoder-Decoder架构,核心思想是用Transformer替代CNN做Encoder。 主要步骤为首先把图像切分为固定大小的块,然后经过线性变换且加入切块
        阅读全文
            
摘要:一、Swin 1.基本思想 swin transformer是微软2021年发表的文章,是基于transformer的模型。 主要流程是,首先将图像输入到patch partition中进行分块,然后进行线性变换,这两步可以理解为把图像切了许多小块形成了token,这样就可以输入到后续的tranfo
        阅读全文
            
摘要:一、OHEM 1. 目的:区分难分样本 2. 方法:多学习难例 对于一次SGD迭代:先计算出特征图,可读RoI网络对所 有RoI执行前向计算并计算每个RoI的损失,然后选择hard RoIs。把这 些hard RoIs输入到可读可写的RoI网络中执行前向前向计算和反向传播更新网络,并把可读可写的Ro
        阅读全文
            
摘要:一、Mask Rcnn 1.基本原理 在Faster Rcnn基础上添加一个Mask预测分支,每个类一张特征图。 大致流程为,首先backbone提取基础特征,然后通过RPN获得proposal,接着通过RoI Align把proposal的feature map裁剪出来,然后接两个分支,一个是类别
        阅读全文
            
摘要:一、用pytorch实现lenet类似网络的训练 1.网络结构 2.代码 from torch import nn, optim import torch.nn.functional as F import torchvision import torchvision.transforms as t
        阅读全文
            
摘要:导读: 由于mask2former是在transformer发展较久才出来的,学习mask2former之前有一些方法的依赖(如mask2former是在maskformer上进行的改进,而maskformer又有detr的影子等),因此在本次整理中附加了一些相关方法/概念,以便更好地理解mask2
        阅读全文
            
摘要:(部分可见 https://www.cnblogs.com/EstherLjy/p/9328996.html ) 一、Faster Rcnn 1. 基本原理 1)用基础网络(VGG16)获得feature map;2)将feature map输入到RPN网络中,提取proposal,并将propos
        阅读全文
            
摘要:基本优化算法: 一、SGD 1.含义: 随机抽取m个小批量样本,计算梯度平均值,再进行梯度的更新。 2.算法: 3.学习率衰减: ,α=k/τ 说明:初始以ε0的学习率进行线性衰减,直到τ次迭代,τ次迭代之后学习率稳定在ετ。 4.参考: https://blog.csdn.net/bvl10101
        阅读全文
            
摘要:一、符号定义 al: 第l层的输出值(经过了激活函数)。在DNN中是向量,在CNN中是张量。 σ:激活函数的表达形式。 zl: 第l层的输出值(未经过激活函数)。在DNN中是向量,在CNN中是张量。 wl: 第l层的权重。 y: gt。 :点积扩展,表示用后者构造一个与前者大小相同的矩阵,再进行点乘
        阅读全文
            
摘要:一、Alexnet(2012) 1.网络结构: 2.意义: 证明了CNN在复杂模型下的有效性,然后GPU实现使得训练在可接受的时间范围内得到结果。 二、VGG(由Alexnet发展而来,2014) 1.结构: 三、Inception(2014) 1.思想:(能够加宽网络获取不同特征的同时不增加计算量
        阅读全文
            
摘要:一、Smooth L1 Loss 1.公式: 2.原因: L1损失使权值稀疏但是导数不连续,L2损失导数连续可以防止过拟合但对噪声不够鲁棒,分段结合两者优势。 L1 Loss的导数是常数,那么在训练后期,当预测值与 ground truth 差异很小时, L1 Loss 损失对预测值的导数的绝对值仍
        阅读全文
            
摘要:一、sigmod 1.函数与图像:[0,1] 2.优缺点: 优点:输出映射在[0,1]之间;求导容易;无限阶可导。 缺点:容易产生梯度消失的问题,因为小于1的数累乘会接近0;输出不是以0为中心,输出都是正或负,会导致网络的学习能力受限。(这个特性会导致在后面神经网络的高层处理中收到不是零中心的数据。
        阅读全文
            
摘要:一、梯度消失和梯度爆炸 1.基本原理 在深度神经网络中,通常采用BP方法更新权重,一般采用链式求导法则求得梯度来更新,导数项包括多个因式相乘,其中有激活函数的导数和初始值等。这时如果梯度过大连乘起来就会越来越大以至于超出范围无法收敛这叫做梯度爆炸,反之如果梯度过小连乘起来就会越来越小甚至为0导致权重
        阅读全文
            
 
                    
                 浙公网安备 33010602011771号
浙公网安备 33010602011771号