摘要: (3)基本模型框架。我们利用冻结权重的CLIP模型的进行视觉和文本特征提取,并建立三个识别分支以建模属性、对象和组合。在视觉一侧,图像通过视觉编码器VIT得到特征序列,将可学习共享查询与全局视觉特征结合并输入跨模态对齐网络VA得到属性、对象和组合相关特征,为了更好解纠缠属性和对象特征,我们还构建了属 阅读全文
posted @ 2025-06-25 15:52 seekwhale13 阅读(15) 评论(0) 推荐(0)