会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
晓飞的算法工程笔记
博客园
首页
新随笔
联系
管理
订阅
2024年9月12日
SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解 | ECCV 2024
摘要: Vision Transformer(ViT) 架构传统上采用基于网格的方法进行标记化,而不考虑图像的语义内容。论文提出了一种模块化的超像素非规则标记化策略,该策略将标记化和特征提取解耦,与当前将两者视为不可分割整体的方法形成了对比。通过使用在线内容感知标记化以及尺度和形状不变的位置嵌入,与基于图像
阅读全文
posted @ 2024-09-12 12:10 晓飞的算法工程笔记
阅读(121)
评论(0)
推荐(0)
编辑
公告