会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
橙同学的学习笔记
首页
新随笔
管理
上一页
1
2
3
4
5
6
···
13
下一页
2021年4月1日
论文阅读笔记(六十七)【arXiv2021】:Contextual Non-Local Alignment over Full-Scale Representation for Text-Based Person Search
摘要: Introduction 1) Motivation: 现有大部分visual textual跨模态方法只采用了单一尺度的特征,比如只采用全局尺度或者只采用局部尺度。本文提出了一种动态对齐图文多尺度特征的方法:Non-local Alignment over Full-Scale Represent
阅读全文
posted @ 2021-04-01 17:05 橙同学的学习笔记
阅读(803)
评论(0)
推荐(0)
2021年3月14日
论文阅读笔记(六十六)【ICCV2019】:Adversarial Representation Learning for Text-to-Image Matching
摘要: Methodology 作者提出TIMAM (Text-Image Modality Adversarial Matching)方法,比较简洁明了,具体包含三个部分: (1)特征提取器: 文本采用BERT提取词向量,再输入LSTM提取文本特征; 图像采用ResNet101提取特征。 (2)采用ID损
阅读全文
posted @ 2021-03-14 15:27 橙同学的学习笔记
阅读(605)
评论(0)
推荐(0)
2021年3月1日
论文阅读笔记(六十五)【ECCV2018】:Deep Cross-Modal Projection Learning for Image-Text Matching
摘要: Introduction 对于image-text embedding learning,作者提出了 cross-modal projection matching (CMPM) loss 和 cross-modal projection classification (CMPC) loss。前者最
阅读全文
posted @ 2021-03-01 15:57 橙同学的学习笔记
阅读(1541)
评论(0)
推荐(0)
2021年2月21日
论文阅读笔记(六十四)【arXiv2021】:TransReID: Transformer-based Object Re-Identification
摘要: Introduction 作者把Vision Transformer (ViT) 应用到目标重识别任务上。ViT在图像分类任务上首次得到应用,它将图像切割成若干小块,每个小块拉成序列,输入到transformer中。在ReID任务中,空间的对齐对于特征学习而言非常重要,因此把transformer应
阅读全文
posted @ 2021-02-21 22:07 橙同学的学习笔记
阅读(2485)
评论(0)
推荐(0)
论文阅读笔记(六十三)【ACMMM2017】:Adversarial Cross-Modal Retrieval
摘要: Introduction 作者提出了一个新的跨模态检索框架 Adversarial Cross-Model Retrieval (ACMR),其利用对抗学习来缩小不同模态特征的gap。下图为框架图: Proposed Method 问题定义: 每对样本的特征定义为:,每对样本搭配一个语义标签向量,其
阅读全文
posted @ 2021-02-21 14:59 橙同学的学习笔记
阅读(723)
评论(0)
推荐(0)
2021年2月19日
论文阅读笔记(六十二)【arXiv2021】:VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale Text-to-Image Search
摘要: Introduction 图文检索问题上存在两个核心挑战:准确率以及速度。作者基于transformer提出了VisualSparta模型(Sparse Transformer Fragment-level Matching),兼顾了准确率和检索速度。本文的贡献包括: 1) 提出了一个新的基于片段交
阅读全文
posted @ 2021-02-19 16:58 橙同学的学习笔记
阅读(428)
评论(0)
推荐(0)
2021年2月4日
论文阅读笔记(六十一)【ICCV2017】:Identity-Aware Textual-Visual Matching with Latent Co-attention
摘要: Introduction 本文提出了一个两阶段的identity-aware图文匹配框架: 第一阶段通过引入Cross-Modal Cross Entropy (CMCE) 损失来学习identity-aware特征表示。训练得到初始的匹配结果。但作者认为第一阶段匹配的结果只是粗略的,图文特征不能紧
阅读全文
posted @ 2021-02-04 19:50 橙同学的学习笔记
阅读(378)
评论(0)
推荐(0)
2021年1月23日
论文阅读笔记(六十)【arXiv2019】:Improving Description-based Person Re-identification by Multi-granularity Image-text Alignments
摘要: Introduction 作者认为现有方法没有考虑跨模态之间局部与全局的关系,比如下图的一些情况。 为此作者提出了Multi-granularity Image-text Alignment (MIA) 方法实现global-global、global-local、local-local三种层面的对
阅读全文
posted @ 2021-01-23 20:15 橙同学的学习笔记
阅读(453)
评论(0)
推荐(0)
2021年1月22日
论文阅读笔记(五十九)【ACM T MULTIM COMPUT 2018】:Dual-path Convolutional Image-Text Embeddings with Instance Loss
摘要: Introduction 作者认为目前广泛应用在text-image匹配中的ranking loss存在一个问题,即忽视了模态内的特征分布,可能造成图像域中两个相似图像难以得到区分。 本文的贡献包括以下三个方面: 1) 提出了一个名为instance loss的分类损失,挖掘同模态内的细微差异; 2
阅读全文
posted @ 2021-01-22 11:50 橙同学的学习笔记
阅读(977)
评论(0)
推荐(0)
2021年1月1日
论文阅读笔记(五十八)【arXiv2019】:Visual-Textual Association with Hardest and Semi-Hard Negative Pairs Mining for Person Search
摘要: Introduction 提出了一个Smoothed Global Maximum Pooling (S-GMP),使得提取的视觉特征与文本特征更加一致; 提出一个基于bi-LSTM的memory attention模块,使得提取的语义特征更具有针对性;在损失函数上,结合了单模态三元组损失和跨模态难
阅读全文
posted @ 2021-01-01 20:54 橙同学的学习笔记
阅读(447)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
13
下一页
公告