随笔分类 - 研究生
摘要:SSD(Single Shot MultiBox Detector) 是一种高效的目标检测算法,由 Wei Liu 等人在 2016 年提出。SSD 的核心思想是通过单次前向传播同时完成目标的定位和分类,从而实现快速且准确的目标检测。它结合了多尺度特征图和默认框(Default Boxes)的设计,
阅读全文
摘要:1. 获取损失值 在训练过程中,损失值可以通过训练循环中的损失函数计算得到。以下是一个简化的代码示例: Python复制 import torch import torch.optim as optim from torchvision.models.detection import fasterr
阅读全文
摘要:Caffe(Convolutional Architecture for Fast Feature Embedding)是一个开源的深度学习框架,由加州大学伯克利分校的贾扬清博士创建。它主要专注于卷积神经网络(CNN),广泛应用于计算机视觉任务,如图像分类、目标检测和图像分割。 Caffe 的特点
阅读全文
摘要:ResNet(Residual Network,残差网络)是一个通用的深度学习架构,而ResNet-50是ResNet架构的一个具体实现,拥有50层深的网络结构。它们之间的主要区别在于网络的深度和具体的层结构。 ResNet ResNet是一种深度卷积神经网络架构,由微软研究院的Kaiming He
阅读全文
摘要:VGG(Visual Geometry Group)是由牛津大学的视觉几何组在2014年提出的一种深度卷积神经网络架构。VGG网络以其简单而深厚的结构而著称,特别是VGG16和VGG19,广泛应用于图像分类、目标检测等计算机视觉任务。 1. VGG 网络架构 VGG网络的核心特点是使用多个小卷积滤波
阅读全文
摘要:Selective Search 是一种用于目标检测的区域建议算法,旨在快速生成图像中可能包含目标的候选区域。它通过图像分割和区域合并的方法,有效地减少了候选区域的数量,同时提高了目标检测的召回率。 1. Selective Search 的工作原理 Selective Search 的核心思想是基
阅读全文
摘要:感受野(Receptive Field) 是深度学习中卷积神经网络(CNN)的一个重要概念,它指的是网络中每个神经元能够感知到的输入图像区域的大小。感受野越大,神经元能够感知到的上下文信息就越多,这对于理解图像中的全局信息和长距离依赖关系非常重要。 1. 感受野的定义 在卷积神经网络中,每个神经元的
阅读全文
摘要:空洞卷积的 ResNet-50 提取特征和 ASPP 结构 1. 空洞卷积(Atrous Convolution) 空洞卷积是一种特殊的卷积操作,通过在卷积核中插入“空洞”(即跳过一些像素),扩大卷积核的感受野,而不增加计算量。空洞卷积的核心参数是膨胀率(Dilation Rate),它决定了卷积核
阅读全文
摘要:Meta Faster R-CNN 是一种针对小样本目标检测(Few-Shot Object Detection)的元学习方法,旨在通过注意力特征对齐提升模型在少样本场景下的检测性能。该方法的核心思想是通过引入注意力机制和特征对齐,优化 Faster R-CNN 在处理新类别时的检测能力。 1. 核
阅读全文
摘要:元学习(Meta-Learning)是机器学习领域的一个重要分支,通常被称为“学会学习”(Learning to Learn)。它的核心目标是让机器学习模型具备快速适应新任务的能力,而不仅仅是解决单一任务。 元学习的核心思想是将学习过程本身作为优化对象,通过在多个任务上进行训练,使模型能够捕捉到任务
阅读全文
摘要:欧式距离(Euclidean Distance) 是在欧几里得空间中,两点之间的直线距离。它是度量空间中距离的一种,也是最常用的距离度量之一。在二维和三维空间中,欧氏距离就是两点之间的直线距离。 1. 欧式距离的定义 对于 n-维空间中的两个点 p=(p1,p2,…,pn) 和 q=(q1,
阅读全文
摘要:在深度学习中,冻结训练方式 是一种常用的策略,尤其在迁移学习、模型微调和多任务学习中。它通过固定模型的某些层或参数,只对部分层或参数进行更新,从而减少训练时间和计算资源消耗,同时提高模型的泛化能力。 比如:主干网络只执行特征提取功能,而不改变自身参数,模型仅对区域建议网络和分类回归网络的参数进行调整
阅读全文
摘要:在深度学习和机器学习中,Epoch 是一个重要的概念,用于描述模型训练过程中的一个完整周期。具体来说,一个 Epoch 表示模型在整个训练数据集上完成一次正向传播和反向传播的过程。 1. 什么是 Epoch? Epoch 是训练过程中对整个训练数据集进行一次完整的遍历。 在每个 Epoch 中,模型
阅读全文
摘要:联合训练的具体流程 特征提取: 输入图像首先通过共享的卷积层(如 ResNet、VGG 等)提取特征图。 这些特征图被同时用于 RPN 和 Fast R-CNN 部分。 RPN 网络: RPN 在特征图上生成候选区域(Region Proposals),并预测每个候选区域是否包含目标(分类任务)以及
阅读全文
摘要:Linear 激活函数,也称为线性激活函数,是一种在神经网络中使用的激活函数,它不改变输入值,直接将输入值作为输出值。线性激活函数的数学表达式为: y=x 其中 y 是输出值,x 是输入值。 1. 线性激活函数的特点 简单:线性激活函数是最简单的激活函数,没有非线性变换。 连续:线性激活函数是连续的
阅读全文
摘要:激活函数(Activation Function)是神经网络中的关键组件,用于引入非线性特性,使神经网络能够学习和模拟复杂的函数关系。没有激活函数,神经网络无论有多少层,都只能表示线性函数,这大大限制了网络的表达能力。以下是几种常见的激活函数及其特点、优缺点和适用场景。 1. Sigmoid 激活函
阅读全文
摘要:在 Faster R-CNN 中,分类和回归任务主要通过全连接层(Fully Connected Layers)完成,但也可以使用卷积层(Convolutional Layers)来实现类似的功能。实际上,这种设计在一些变体和改进版本中已经被采用,尤其是在处理高分辨率特征图或需要更高效的实现时。 1
阅读全文
摘要:MaxPooling(最大池化) 是深度学习中常用的一种池化操作,主要用于减少特征图(Feature Map)的空间维度(即宽度和高度),同时保留最重要的特征信息。它是卷积神经网络(CNN)中常用的下采样(Downsampling)方法之一。 1. MaxPooling 的作用 减少计算量:通过降低
阅读全文
摘要:在目标检测中,先验框(Anchor Box)的置信度是一个重要的概念,用于衡量先验框内是否包含目标物体的可能性。具体来说,先验框的置信度通常由两部分组成:目标存在置信度(Objectness Score)和类别置信度(Class Confidence Score)。 1. 目标存在置信度(Objec
阅读全文
摘要:PyTorch 是一个开源的深度学习框架,由 Facebook 的 AI 研究团队开发。它在学术界和工业界都广泛应用,以下为你详细介绍它:特点动态计算图:PyTorch 使用动态计算图,这意味着在运行时可以动态地定义和修改计算图。与静态计算图(如 TensorFlow 1.x 版本)相比,动态计算图
阅读全文