会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
seekwhale13
博客园
首页
新随笔
联系
订阅
管理
2025年6月25日
中期
摘要: (3)基本模型框架。我们利用冻结权重的CLIP模型的进行视觉和文本特征提取,并建立三个识别分支以建模属性、对象和组合。在视觉一侧,图像通过视觉编码器VIT得到特征序列,将可学习共享查询与全局视觉特征结合并输入跨模态对齐网络VA得到属性、对象和组合相关特征,为了更好解纠缠属性和对象特征,我们还构建了属
阅读全文
posted @ 2025-06-25 15:52 seekwhale13
阅读(15)
评论(0)
推荐(0)
公告