2025 年 6月 25 日随笔档案 - seekwhale13

2025年6月25日

摘要： (3)基本模型框架。我们利用冻结权重的CLIP模型的进行视觉和文本特征提取，并建立三个识别分支以建模属性、对象和组合。在视觉一侧，图像通过视觉编码器VIT得到特征序列，将可学习共享查询与全局视觉特征结合并输入跨模态对齐网络VA得到属性、对象和组合相关特征，为了更好解纠缠属性和对象特征，我们还构建了属阅读全文

posted @ 2025-06-25 15:52 seekwhale13 阅读(17) 评论(0) 推荐(0)

seekwhale13

公告