2024-3-17
全局特征
针对于行人重识别来说是指将整个图片送入模型进行特征提取得到的向量。一般卷积神经网络层数越深,得到的越是全局特征。
局部特征
局部特征可能指的是图像中的边缘、角点、纹理等基本视觉元素。一般是卷积神经网络的浅层得到的特征。
序列特征
数据按照时间顺序或某种逻辑顺序排列, 行人重识别中主要针对的是基于视频的行人重识别。
迁移学习
把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务。
(个人理解有很多东西比如resnet网络在ImageNet中进行了训练,将最后的全连接层换成自己任务要分的类别数, 然后在上面训练的参数迁移到自己的分类任务当中)
相似度度量
衡量数据对象之间相似程度的方法。常见的如下:
- 欧式距离
计算两点在多维空间中的直线距离。
公式:\(\omicron = \sqrt{\sum_0^n{(p_i-q_i)^2}}\) - 余弦相似度
衡量两个向量在方向上的相似度。
公式:\(cos = \frac{x y}{|x| |y|}\)
端到端
端对端指的是直接从原始数据到最终结果的学习过程。这种方法通常不需要对数据进行复杂的预处理或特征工程,而是依赖模型自动从数据中学习到有效的特征表示和进行预测。
分辨率
图像分辨率是指每英寸图像内的像素点数。单位为像素每英寸。分辨率越高,像素的点密度越高,图像越逼真。
特征提取
深度学习特征提取过程
-
原始数据:输入数据是一组包含猫和狗图片的图像集合。这些图片是高维数据(例如,一个224x224像素的图像有50176个像素点,如果是彩色图像,则有150528个特征,每个像素点的RGB三个通道各算一个特征)。
-
卷积层(Convolutional Layers):CNN的第一步是通过卷积层处理图像。卷积层通过滤波器(或称为卷积核)扫描整个图像,捕捉局部特征,如边缘、纹理等。在这个过程中,模型学习到了图像中猫和狗的低级特征表示。
-
池化层(Pooling Layers):紧接着卷积层之后的是池化层,它的作用是降低特征图的空间维度(宽度和高度),同时保留最重要的信息。这有助于减少计算量并提高模型的泛化能力。
-
更深层的卷积和池化:随着数据通过网络的更深层,模型开始从简单的局部特征中抽象出更复杂的特征。这些更深层的卷积层能够捕捉到更高级的视觉模式,如动物的部位(耳朵、眼睛等)和整体形状。
-
全连接层(Fully Connected Layers):在经过多个卷积和池化层之后,特征图最终被展平,并通过一个或多个全连接层。这里,模型学习如何基于前面提取的高级特征来进行分类决策。

浙公网安备 33010602011771号