摘要: 现有的方法通过利用视觉-语言模型(VLMs)(如CLIP)强大的开放词汇识别能力来增强开放词汇目标检测,然而出现了两个主要挑战:(1)概念表示不足,CLIP文本空间中的类别名称缺乏文本和视觉知识。(2)对基础类别的过拟合倾向,在从VLMs到检测器的转移过程中,开放词汇知识偏向于基础类别。 为了解决这 阅读全文
posted @ 2024-10-22 13:46 晓飞的算法工程笔记 阅读(695) 评论(0) 推荐(0)