中期
(3)基本模型框架。我们利用冻结权重的CLIP模型的进行视觉和文本特征提取,并建立三个识别分支以建模属性、对象和组合。在视觉一侧,图像通过视觉编码器VIT得到特征序列,将可学习共享查询与全局视觉特征结合并输入跨模态对齐网络VA得到属性、对象和组合相关特征,为了更好解纠缠属性和对象特征,我们还构建了属性和对象解纠缠模块;在文本侧,我们首先构建一个包含所有属性和对象的词汇表,设定该词汇表的参数为可学习并通过属性和对象的单词本身进行初始化,并与提示结合得到文本tokens通过编码器提取得到序列特征,整体模型框架如图3所示
在视觉和文本侧,我们利用共享参数的可学习查询与跨模态网络对属性、对象和组合进行特征提取,
 
                    
                
 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号